优酷引入Spark深化大数据处理

作者: 大数据观察来源: 大数据观察时间:2017-08-28 16:39:24

点击查看原图

在2013年艾美奖颁奖典礼上，Netflix的首部原创剧集《纸牌屋》获得了9项大奖的提名，并最终斩获最佳导演和最佳选角两项大奖。据说Netflix推出该剧前对用户的数据进行了大量的分析，从而将用户所喜欢的多个关键要素融入到了剧情中。

《纸牌屋》的成功背后，大数据到底起到了多大的作用，可能很难用具体的数字来确认。但是可以肯定的是，当前视频网站的发展，已经离不开大数据技术的推动，视频网站自身已经成为这股大潮中的弄潮儿。

优酷土豆集团(下称优酷)专注于视频领域，是中国网络视频行业领军企业之一。相关人士向记者表示，优酷从2009年就开始采用Hadoop大数据平台，最初只是10多个节点的规模，2013年整个集群节点达到了300个，每天处理数据量达到200TB。

优酷首席技术官姚健曾经表示，对优酷而言，通过用户的每次播放流程，优酷的后台系统都会对页面浏览、评论收藏、视频播放以及播放时的各种操作进行记录。经处理后的分析结果会反馈给内部不同的业务模块，对优酷在产品、内容运营、用户的个性化推荐及广告投放等方面的提升，都起到了关键作用。

“对优酷来说，从网站页面设计、内容推荐到广告投放，都离不开大数据技术的支持。”优酷土豆集团大数据团队技术总监卢学裕表示，优酷通过对各种数据进行分析处理后，不但能够为广告主呈现出用户行为特征，提供广告投放价值的分析，而且在用户体验优化方面都有很大的帮助。

优酷大数据团队大数据平台架构师傅杰告诉记者，一直以来，优酷都在使用MapReduce和Hive来处理大数据，特别是一些视频推荐挖掘的数据都是通过MapReduce来处理。在这个过程中，优酷发现有一些场景其实并不适合MapReduce，处理效率不尽如人意。“随着优酷业务发展的不断壮大，分析的数据量也自然就越来越大。之前使用Hadoop处理一些诸如机器学习、图计算等迭代式计算问题时，处理速度成为了瓶颈。内部的分析人员提交任务后要等上很长时间才能得到结果，等待时间之长已经有些令人不能忍受。”卢学裕说，“最终，在英特尔公司的帮助下，优酷将Spark引入到了自身的大数据计算框架中，作为整个Hadoop集群的补充。其效果还是相当令人满意的，以图计算为例，相同的数据量，在以往的平台上需要80多分钟，在4节点的Spark集群上，用时只需要5分钟左右。”

Spark是一个通用的并行计算框架，由伯克利大学的AMP实验室开发，已经成为继Hadoop之后又一大热门开源项目。作为一种与Hadoop相似的开源集群计算环境，由于启用了内存分布数据集，Spark在某些工作负载方面表现得更加优越，除了能够提供交互式查询外，它还可以优化迭代工作负载。

据悉，英特尔公司从2012年中旬开始向Spark开源社区贡献，目前已经与优酷等互联网公司进行了相关的合作。英特尔(中国)有限公司销售市场部互联网及媒体行业企业客户经理李志辉表示：“未来英特尔还会持续跟优酷合作，一旦整个集群达到一定规模，英特尔还会投入相应专家来帮助优酷做一些硬件配置上的优化，包括系统的一些优化工作。最终的目标，就是将英特尔的整体解决方案和优酷这样的用户的业务相结合。”

看过还想看

可能还想看