xxanalysis

用户行为分析平台
授权协议 Apache
开发语言 Scala
所属分类 管理和监控、 日志分析和统计
软件类型 开源软件
地区 国产
投 递 者 丰飞龙
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

介绍

大数据技术已经迅速应用于商业并产生价值,通过数据分析来识别用户行为,建立以用户为中心的低成本快速增长,是一个企业必须具备的核心竞争力。 随着成本的大幅度增加,企业必须改变过去粗放型的营销和运营方式,特别是在市场营销、产品制造、销售以及未来的客户服务等各个方面向更加科学、高效的方向转变。

小象电商系统上线后,需要收集用户行为数据,通过大数据实时分析实现电商业务数字化运营。基于此强需求开发小象用户行为分析,兼容神策开源的埋点SDK完成终端行为上报,采用 Nginx+Flume+kafka 实现日志收集,采用 Flink 写入 HDFS。

本开源项目内容包括 nginx 环境配置、Flume 解密和日志格式处理、将明文数据存放到 kafka 的 Topic 下、Flink 消费后将埋点数据存入 HDFS 的关键4步操作。为方便前期埋点的校验调优,在 kafka环节,增加了埋点解析数据  JSON 格式存入 MySQL。后续计划增加友盟和其他SDK厂商的埋点处理,以及业务系统日志的采集入库。

项目主要内容

  • 日志采集(Flume+kafka)
  • 日志入库(Flink+HDFS)

工作流程

完成数据采集技术构建和业务设计,在 App、小程序的系统供应商配合下完成用户行为数据采集埋点,并基于埋点的数据构建线上用户行为标签和画像。 输入图片说明

架构设计思路

所谓“埋点”,是数据采集领域(尤其是用户行为数据采集领域)的术语,指的是针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。比如用户某个icon点击次数、观看某个视频的时长等等。 输入图片说明

业务设计思路

埋点业务设计,首先需要根据业务分析明确采集的目标行为,进一步搞清楚应该在哪些地方埋什么样的点。过程中建议使用“事件模型( Event 模型)”来描述用户的各种行为,事件模型包括事件( Event )和用户( User )两个核心实体。 基于4W1H模型描述用户行为可将整个行为描述清楚,要点包括:是谁、什么时间、什么地点、以什么方式、干了什么。通过这两个实体结合在一起就可以清晰地描述清楚用户行为。 输入图片说明

技术架构

SDK 埋点采集行为数据来源终端包括 iOS、安卓、Web、H5、微信小程序等。不同终端 SDK 采用对应平台和主流语言的 SDK,埋点采集到的数据通过 JSON 数据以 HTTP POST 方式提交到服务端 API。 服务端 API由数据接入系统组成,采用 Nginx 来接收通过 API 发送的数据,并且将之写到日志文件上。使用 Nginx 实现高可靠性与高可扩展性。 对于 Nginx 打印到文件的日志,会由 Flume 的 Source 模块来实时读取 Nginx 日志,并由 Channel 模块进行数据处理,最终通过 Sink 模块将处理结果发布到 Kafka 中。

输入图片说明

软件完整架构

输入图片说明

第三方埋点SDK集成步骤

  • 引入 SDK:在终端应用配置文件添加 SDK 依赖,不同终端引入方式会有差异,具体操作步骤将在后续SDK技术文档中体现。
  • 配置上报服务端API地址:用于设置 SDK 上报 API 的服务端地址。
  • 开启全埋点:SDK 可以自动采集一些用户行为,如 App 启动、退出、浏览页面、控件点击。初始化 SDK 时,通过 SDK 提供的初始化方法可以配置开启全埋点。

API接入服务设计

不同渠道的埋点数据通过 HTTP API 发送给服务端API实现数据接入。 采用Nginx作为WEB容器接收客户端SDK发送的数据,并且将之写到日志文件上。使用 Nginx 主要是考虑到其高并发、高可靠性与高可扩展性。

用户行为采集场景

通过应用场景梳理,实现以场景规划埋点,用场景检验埋点。场景梳理可以抽象为三个层面:

  • 通用基础场景:共性操作统一考虑
  • 重要操作场景:重要操作整体归因
  • 业务主流程场景:以业务线定义完整过程

输入图片说明

应用效果

输入图片说明

输入图片说明

 相关资料
  • 用户趋势 活跃用户 用户画像 地域分布 终端分析 版本分析 实时访客

  • 用户分析 一、功能简介 增长黑客必须以用户为王!了解产品的用户是谁?从哪来?有什么特征?这些是做产品运营和功能设计最基础的要求,也是统计与分析工具需要帮助您解决的最基础的一个问题,即:从数据层面分析您的用户。 在移动统计平台上,我们通过用户趋势与活跃分析、地域分布、终端分析、版本分析和用户画像五个功能,帮助您剖析: 用户规模、质量构成、用户来源、终端属性以及超出APP范畴的用户在大数据世界的画像(

  • 作为第三代数据统计和分析平台,诸葛实现了对用户的实名(实账号)分析,并主张互联网产品分析以用户为中心的分析思想并提供了一系列方法论。对用户的唯一标识来源于企业自身数据库对用户的唯一识别符,也即诸葛底层数据采集是以用户为中心的采集,我们提供了跨平台分析版本, 满足企业以用户为中心的整体的分析需求,不同平台相同业务价值下的用户完整的故事解读(例如:分析电商的用户在PC端浏览产品,在移动端支付的转化率)

  • 行为分析模块提供了丰富的高阶分析工具,您可以通过这些分析工具,深度分析业务指标、洞察用户行为模式特征、刻画用户画像、科学评估渠道推广效果,甚至基于用户分群与百度投放直达能力,实现分人群的精准营销与策略落地。 此外,您也可以通过保存到数据看板来逐步沉淀有价值的行为分析思路与结果。 目前行为分析模块包含6大分析能力。 事件分析 漏斗分析 留存分析 行为流 分布分析 关联分析

  • 生成图表 如何分析用户的数据是一个有趣的问题,特别是当我们有大量的数据的时候。除了 matlab,我们还可以用 numpy + matplotlib 数据可以在这边寻找到 https://github.com/gmszone/ml 最后效果图 2014 01 01 要解析的 JSON 文件位于data/2014-01-01-0.json,大小 6.6M,显然我们可能需要用每次只读一行的策略,这足以

  • 用户分群是一种用户运营和用户分析手段,通过对特定用户进行定向投放实现精细化运营,通过对某一个用户群体分析发现不同用户的特征以及偏好。HubbleData的分群区别于传统的标签体系,支持产品策划或者运营人员通过行为数据指定用户,具体使用场景包括: 策划,交互或者视觉同事,通过对比不同分群用户对产品的使用,发现用户特征以优化产品设计 运营通过用户分群定向投放,实现用户的精细化运营 HubbleData