2013年旧金山QCon大会上,Netflix的数据平台架构经理Jeff Magnusson做了一场关于Netflix数据平台即服务(Data Platform as a Service)的演讲。沿着这场演讲的线索,我们将尝试进一步探寻技术栈的组成,以及它如何帮助Netflix做出重要的业务决策。
在全球范围里,Netflix拥有超过三千万订阅用户。访问Netflix网站过程中,每位用户都会提供若干数据点。而网站将用户对视频进行的播放、打分或搜索等操作,作为事件进行捕捉和分析。此外,用户使用中涉及到的时间、日期、地理位置、设备和页面中的浏览或滚动行为,也将被Netflix用来提供操作事件发生的环境,并将用户划分到不同的类别中。Netflix使用这些数据来提升其网站的参与度,并做出诸如接下来将资助哪套连续剧等业务决策。
来自诸如Nielsen等第三方或社交媒体的元数据,也有助于对平台吸引用户参与或新用户订阅。
自2009年起,Netflix就已经运行在云上,并使用了Hadoop平台。他们所采用的基础设施中,关键的大数据模块包括:
除了这些工具,Netflix还开发了Curator等若干辅助工具。Curator是一系列对运用Apacke Zookeeper有帮助的Java类库。使用Curator,开发者能够轻易地构建健壮的客户端,并避免若干缺陷,例如不安全的客户端调用或是错误地假设某次请求会获得成功。
在上述技术栈的各个部分中,一个非常重要的组成部分是Netflix推荐。Netflix全部视频流中,大约有75%是由推荐结果驱动的。驱动推荐的系统之一使用了马尔科夫链,将电影作为状态建模,并计算这些状态之间转换的可能性。在RDBMS中,这将作为一个存储的规程,每周运行一次;不过作为一个昂贵的副本,它并不具有良好的可扩展性。使用Hadoop后,这个问题就得到了本质的解决,能够进行扩展而无需复制任何数据,另外使用Pig或Java Map Reduce任务,将比作为存储的规程更易于维护。
马尔科夫链描绘了一种离散时间随机过程,它依据转移概率矩阵在一系列状态间变换。将每部电影作为一个节点建模,并使用双边Map Reduce任务,Netflix能够计算从某个节点转换到另一个的可能性,而这正是推荐值。未来的值仅仅依赖于当前值,这决定了它非常适合Map Reduce任务——因为无需在Hadoop节点中存储状态。
转移概率并不是Netflix的推荐引擎中考虑的唯一一项参数。除此之外,使用环境也是一个值得考虑的有趣的维度。用户或许希望根据当前使用设备查看不同的内容——在家、休假或是在工作环境。这是一个Netflix也尚未能够解决的问题,因为要想将使用环境与观看选项关联,还需要克服若干挑战。
无论是其他行业,还是同行业竞争对手,都无法简单地复制Netflix的大数据架构。然而,其中部分构建模块现在已经开源,并放在其GitHub账户中供人们下载。对想要开始开发大数据架构的组织机构来说,它们都可以作为起步的基点。而正如Netflix所展现的,大数据战略并不是一个事后规划,相反它必须预先规划,并在数年时光中贯彻执行。
原文英文链接:Big Data at Netflix Drives Business Decisions