ETL将数据经过抽取extract、转换transform、加载load 到数据仓库
数据清洗转换:
清洗:即过滤,过滤什么呐?肯定不能把好的、符合要求的数据滤掉,过滤完不符合要求的数据后,交给相关部分确认是否对对口再接着往下抽取
那什么是不符合要求的数据:
不完整:应该有的你没有,那怎么能行,补上!
错误的:何为错误,这个仁者见仁智者见智,格式不对、看不前的祸害、全角半角这种上世纪的错误那都是要我们去承担的,通过sql等找出来,那必须修正药业之后再抽取
重复的:重复的这个词,不是money其他的都通通甩掉
这个过程就是繁琐,需要细致面对,走过了之后也算是解决了一大半问题
转换:不一致数据的转换、数据粒度的转换,一些(商务)规则的计算
不一致数据:合并同类项 或者 归类 统一格式、一家人就要整整齐齐的,少一两个都不行
数据粒度的转换:不同的粒度、不同的维度,聚合出不一样的火花,要四维的不要整成三维要不别人说你没有想象力
(商务)规则计算:不同行业不同老板有不同的规则和癖好,列出奇奇葩葩的数据指标,作为小兵小虾的我们指定了要按规则办事,这也算是拿人钱财与人消灾吧
ETL日志、警告通知:
日志:三大类*小点 总之要通过日志告诉我们etl的情况,出错了要让我们有章可循
执行过程日志:ETL执行记录,比如运行时间、影响了多少data
错误日志:模块出错那必须记下来,没错、活生生的嫉妒,必须清清楚楚明明白白记录错误的时间 模块 信息
总体日志:大概差不多的那种,什么时候开始、什么时候结束、结果怎么样,都有、ok、好了 可以走了
警告:给我们发警告,及时发现问题,一般是发邮件,现在呐钉钉流行IT,用他也可以
谢谢:
https://www.cnblogs.com/Little-Li/p/11114643.html
百度百科ETL