banner
大数据平台>大数据技术与应用>Spark深化大数据处理

优酷引入Spark深化大数据处理

作者: 大数据观察来源: 大数据观察时间:2017-08-28 16:39:24

 

点击查看原图

在2013年艾美奖颁奖典礼上,Netflix的首部原创剧集《纸牌屋》获得了9项大奖的提名,并最终斩获最佳导演和最佳选角两项大奖。据说Netflix推出该剧前对用户的数据进行了大量的分析,从而将用户所喜欢的多个关键要素融入到了剧情中。

《纸牌屋》的成功背后,大数据到底起到了多大的作用,可能很难用具体的数字来确认。但是可以肯定的是,当前视频网站的发展,已经离不开大数据技术的推动,视频网站自身已经成为这股大潮中的弄潮儿。

优酷土豆集团(下称优酷)专注于视频领域,是中国网络视频行业领军企业之一。相关人士向记者表示,优酷从2009年就开始采用Hadoop大数据平台,最初只是10多个节点的规模,2013年整个集群节点达到了300个,每天处理数据量达到200TB。

优酷首席技术官姚健曾经表示,对优酷而言,通过用户的每次播放流程,优酷的后台系统都会对页面浏览、评论收藏、视频播放以及播放时的各种操作进行记录。经处理后的分析结果会反馈给内部不同的业务模块,对优酷在产品、内容运营、用户的个性化推荐及广告投放等方面的提升,都起到了关键作用。

“对优酷来说,从网站页面设计、内容推荐到广告投放,都离不开大数据技术的支持。”优酷土豆集团大数据团队技术总监卢学裕表示,优酷通过对各种数据进行分析处理后,不但能够为广告主呈现出用户行为特征,提供广告投放价值的分析,而且在用户体验优化方面都有很大的帮助。

优酷大数据团队大数据平台架构师傅杰告诉记者,一直以来,优酷都在使用MapReduce和Hive来处理大数据,特别是一些视频推荐挖掘的数据都是通过MapReduce来处理。在这个过程中,优酷发现有一些场景其实并不适合MapReduce,处理效率不尽如人意。“随着优酷业务发展的不断壮大,分析的数据量也自然就越来越大。之前使用Hadoop处理一些诸如机器学习、图计算等迭代式计算问题时,处理速度成为了瓶颈。内部的分析人员提交任务后要等上很长时间才能得到结果,等待时间之长已经有些令人不能忍受。”卢学裕说,“最终,在英特尔公司的帮助下,优酷将Spark引入到了自身的大数据计算框架中,作为整个Hadoop集群的补充。其效果还是相当令人满意的,以图计算为例,相同的数据量,在以往的平台上需要80多分钟,在4节点的Spark集群上,用时只需要5分钟左右。”

Spark是一个通用的并行计算框架,由伯克利大学的AMP实验室开发,已经成为继Hadoop之后又一大热门开源项目。作为一种与Hadoop相似的开源集群计算环境,由于启用了内存分布数据集,Spark在某些工作负载方面表现得更加优越,除了能够提供交互式查询外,它还可以优化迭代工作负载。

据悉,英特尔公司从2012年中旬开始向Spark开源社区贡献,目前已经与优酷等互联网公司进行了相关的合作。英特尔(中国)有限公司销售市场部互联网及媒体行业企业客户经理李志辉表示:“未来英特尔还会持续跟优酷合作,一旦整个集群达到一定规模,英特尔还会投入相应专家来帮助优酷做一些硬件配置上的优化,包括系统的一些优化工作。最终的目标,就是将英特尔的整体解决方案和优酷这样的用户的业务相结合。”

banner
看过还想看
可能还想看
最新文章
Yonghong Z-Suite一站式大数据分析平台 —— 以卓越的数据技术为客户创造价值,实现客户成功。