1.2.4.4 原始数据同步
优质
小牛编辑
156浏览
2023-12-01
1.1.1. 一、推送方式
哈勃数据通过kafka实时推送,用户通过订阅kafka数据可以满足更多使用场景,既可以满足离线统计需求,又可以支持实时分析
1.1.2. 二、工作流程
- 业务方申请一个kafka topic(用于数据推送与订阅 ,如没有私有kafka集群,可向运维申请公共kafka集群的topic)
- 业务方告知已申请的kafka broker信息、topic名称、推送数据的产品id。申请完成之后联系陈小健(hzchenxiaojian@corp.netease.com)
- 确认后数据开始推送,一般第二个工作日开始数据推送。请注意观察数据流是否跟已有数据模型保持一致。
1.1.3. 三、说明
- kafka里每一条数据是一个json字符串,各字段说明参见数据模型中事件属性events部分
- 业务方若只需按天做T+1的离线分析,可使用猛犸现有工具将kafka数据按天落地到hdfs目录(具体猛犸配置咨询猛犸值班)
- 因kafka存放数据的时间有限(一般为几天),建议业务方对kafka的数据在hdfs做永久备份,方便长期使用