凉经 24届 tx 软件开发-数据工程

优质

小牛编辑

160浏览

2023-03-28

凉经 24届 tx 软件开发-数据工程

摘要

数据工程的全流程（数仓建设-数据接入-数据运维-数据分析-数据挖掘）的各个阶段都有涉及...

自我介绍，问了我在百度和蔚来做的工作（数仓），对简历项目中对数据倾斜的发现、解决方法和效果
回答是通过sparkUi中task的输入量和运行时间发现，解决方法是用count估算不同维度下各value的数据条目，然后数量最多的top key进行再赋值后与其他表join
感觉这个地方可以从spark运行机制上讲数据倾斜造成的后果，以及面试官特别在意选取选取多少纬度值进行打乱的逻辑...难道是28原则？
继续追问数据分层的原因，ods dws dwd的区别（概念还是不清晰）

2. 解释xgboost、SVM、LR的模型原理以及区别

3. 写出二叉树的数据结构，递归调用这类（我当然是不会....)

4. 用任意语言写出寻找数组最大自增队列的长度（指出我重复扫描的问题）

5. SQL题，a表和b表都有key和value，用b表中相同key的value替换a表，我以为是查询，就写了coalesce函数，谁知道要求的是update.....（这是个什么部门）

6. 继续深挖项目，看我做过国网的项目，问我用到的PCA是怎么降为的（说出计算过程）

7. 做没做过竞赛（我没敢说我参加过数模）

8. 是否了解推荐模型、NLP等（我把nlp了解的一些模型说了一下）

9. 什么时候和百度这边的实习结束，顺便问我是哪里人....我就说3月底就结束了，很快就可以投入到下一份实习，而且可以因为发完小论文了，可以全心投入实习

10. 问答环节，我问这个部门主要做什么，答案基本也是全栈，最终产出是产出label和特征，顺便问了下部门的hc，也是很坦诚说在收缩。最后问面试官如何看待chatgpt对于数分行业潜在的冲击，面试官说chatgpt目前更多的是nlp技术的发展，且数分最重要的是业务经验，反倒是可以辅助工作

面经也结束了，其实还是自己太菜了，只满足当sqlboy，结果人家完全不问，就尴尬了hh，但是奇怪的是全程没问任何业务问题....?

希望这份面经可以帮助到下一个面试的人。