当前位置: 首页 > 工具软件 > HERMES > 使用案例 >

大数据学习笔记一 hermes功能介绍与使用

昌学
2023-12-01

Hermes 是什么?
大数据实时多维分析平台,腾讯自研组件,腾讯处理千亿级海量数据用户画像和多维分析的核心技术的经验和积累,基于搜索引擎技术,实现索引和搜索功能,可根据用户自定义数据分析需求,对多个字段进行关键字全匹配或模糊匹配检索,并可对检索结果集进行分组、排序、计算等统计分析操作。
Hermes数据接入
hermes支持两种数据接入方式:
1.实时数据接入(实时数据接入依赖KAFKA进行数据的导入导出,开发者需掌握KAFKA producer生产端,KAFKA消费端hermes会自动消费并储存数据)
2.离线数据接入(支持本地csv格式的文件导入)
另外hermes的所有接口都是HTTP接口,调用方式也是调用http接口
Hermes数据导出
hermes 的导出方式分两种:
1.流数据导出,数据导出到kafka,然后开发者实时去消费kafka的数据
2.离线数据导出道储存系统,开发者去下载数据
Hermes实时数据接入
hermes实时数据接入过程:
1.开发者首先需要在kafka为hermes创建一个topic,该topic用于存放写入hermes的流数据。
2.在hermes注册该topic,使得该topic的数据能够被hermes消费到数据表;
3.在hermes创建数据表,按照业务需求定义数据项以及数据格式,并且,该数据表需要关联刚才创建的topic。
之后,往kafka的该topic写入的所有数据,都将被hermes自动消费并存入数据表;
4.按照数据表的格式,将数据生产写入kafka的topic;
5.hermes将会自动消费该topic的数据,并存入数据表。
Hermes离线数据接入
hermes支持离线导入文件,实现批量导入存量数据需求。需要注意的是,相较于实时导入数据方式,离线导入数据需要注意以下几点:
1、目前离线导入文件到数据表,只支持导入到普通表,并不支持导入数据到视图表与物理表;
2、不能对hermes数据表的同一个分区同时进行kafka实时接入和工作流离线接入两种操作,某个
经使用kafka实时导入方式对某个表的20180420分区进行过数据导入,那么就不能使用离线导入方式将数据文
件导入到20180420分区;
3、目前支持导入的文件类型为两类:国际标准csv格式 和 文本文件。对于文本文件,必须有明确的分隔符,
数据内容不能与分隔符冲突。对于国际标准csv格式文件,分隔符指定为逗号就可以;
4、Hermes离线导入数据之前,需要利用2.1和2.2章节先利用kafka把数据表建好。虽然离线导入文件方式不
需要依赖于kafka,但是离线导入方式本身不能实现建表,建表还是需要使用2.1和2.2章节的方法。
5、Hermes离线导入数据,需要使用TBDS大数据平台的工作流SHELL任务实现,具体使用方法见下文详解。
6、Hermes离线导入数据到表的某个分区,则该分区的数据没有全文检索字段all_rawdata与原始数据字
段hermes_rawdata。后期版本会补充上全文检索字段all_rawdata与原始数据字段hermes_rawdata功能。

 类似资料: