1.自我介绍 2.对实习展开问:(提及主要做了ods 和ads ,基本就展开ods 问) 实习项目整体是怎样的? 主要做ods层,那涉及到什么数据? 用什么工具? 线上数据能否支持删除(物理删除,逻辑删除)? DataX在同步过程的局限性在哪,在数据同步有没有遇到什么问题? 如何保障线上数据与数仓一致(即如果线上数据删除的话,数仓同步过的数据如何保证一致)?(后续有提及数据质量监控)? ods做了
机器学习树模型 GBDT与RF区别 XGB如何并行生成树 XGB优化方面对GBDT 深度学习 GRU通过什么方法保留前面时序的信息 GRU损失函数 word2vec cbow和skip-gram区别 cbow一个原理 交叉熵损失与kl散度 数据结构 单词表格,内存很大的表,运行内存很小,如何通过查询出现次数最多前100单词 python python内存管理机制 装饰器 pandas apply/
1.HashMap底层存储结构是什么数据类型 2.&& 和 &,| 和 || 的区别 3.ArrayList是否是线程安全的 4.异步IO是什么,使用场景 5. 数仓分几层,各层作用。 6.Spark 常用算子有哪些。 7.map和mapPartition的区别。 8.在你使用Spark开发中,会使用哪儿些手段来优化你的程序。 9. spark的cache和persist算
一面: 面试时间:2024.07.03,共计80分钟 全程项目经历,在工作中做的事情。 按着简历上写的"工作内容",一条一条的问。 问题 自我介绍 后面打算是在上海 or 北京 or 其他地方? 之前工作离职了吗? 介绍之前工作中参与的项目? - 自己承担了哪些工作? - 在承担的工作中,哪些是挑战 or 难点 or 亮点的工作、怎么解决的? 数据开发工作流程? - 一个需求流程走完,大概需要多久
7.11一面: 1.自我介绍 2.拷打项目,项目遇到的难点,怎么解决的。 3.数据倾斜 4.数仓分层怎么做的以及作用 5.对数仓的看法 6.小文件的危害 7.介绍一下yarn 8.java三大特性 7.12二面: 1.自我介绍 2.拷打项目 3.拷打论文 4.实习遇到的难点,怎么解决的 5.一道简单sql 6.能实习多久
实习生岗位,没有转正机会,本牛没有实习经历 1.自我介绍 2.介绍自己一个与数据分析相关的项目(介绍了期末project) 3.学习中掌握的数据分析技能有哪些(答了sql和python) 4.介绍一个学习中的困难以及是怎么克服的(很笼统地说了些学习中遇到的困难),面试官不满意,一定要我具体介绍某一个困境或者很suffer的经历 5.反问:该岗位还需要哪些能力,面试官答曰需要一双发现的眼睛,会探索的
#2025实习##数据开发工程师实习##数据开发##面经##万声音乐# 万声音乐集团 1面: 1. 自我介绍? 2. 数据库和数据仓库区别? 3. 两个建模有什么区别? 4. flume拦截器如何实现? 5. 事实表概念? 6. 事务性事实表的局限性? 7. 拉链表是干什么的,为了解决什么问题? 8. 构建一个指标的流程? 9. sql:活跃用户,七天活跃用户?
自我介绍:是怎样的人,有怎样优势,做怎样改进 岗位是否匹配预期 介绍工作内容 业务方沟通需求 整理数据,提出数据,可视化 提供给业务方 能力:沟通,数据分层实践 数仓了解多少 机器学习拷打 SQL考察 思维题 什么是数据分析 面试官简述数据分析理解 反问
1.自我介绍 2.对公司有没有了解 3.inner join的底层实现,有哪些算法 4.两个数组,数组的大小都在数千万级以上,但是值域是在一千万以内,找到两个数组相同的元素(说了bitmap) 换了部门负责人来面试 5.有了解过数仓整体的架构吗(面试官说现在是存算分离,实时和离线一体) 6.有写过UDF吗,当时的场景是什么样的 7.假设现在用的是yarn,pyspark从提交文件到让代码分布到各个
分享一下今天的面试情况,总体其实不难,但真的太过紧张,发挥极其不好。 首先上来是一段自我介绍,然后闲聊一些我的能力还有个人对于科研的看法,以及导师的管理松紧。 之后就是正式的面试内容: 1.TCP为什么要三次握手?这个题太经典了,想必背过八股的都知道,但我真的太紧张,完全不知道从哪里开始说起,所以结结巴巴的搞完了。 2.线程和进程的区别?这个也很简单对吧,不过我感觉我说的不够全面。 3.Mysql
细挖项目 数据仓库和数据库的区别 维度表和事实表是什么,维度退化是什么 拉链表的作用 hive元数据 hive外部表和内部表的区别 两道sql: 1.查找不含重复行。 2.一张表,1行13列,表元素包括uid,1到12月份,值为消费额。把它转成3列12行,列包括uid,月份,消费额。
本文向大家介绍超大数据量存储常用数据库分表分库算法总结,包括了超大数据量存储常用数据库分表分库算法总结的使用技巧和注意事项,需要的朋友参考一下 当一个应用的数据量大的时候,我们用单表和单库来存储会严重影响操作速度,如mysql的myisam存储,我们经过测试,200w以下的时候,mysql的访问速度都很快,但是如果超过200w以上的数据,他的访问速度会急剧下降,影响到我们webapp的访问速度,而
一面 8.30 50min 1.java常用的容器,数组和链表区别?hashmap,put的过程 2.解决hash冲突的方式?(开放定址法(线性探测法、平方探测法前后寻找)、链地址法、建立公共溢出区) 3.上面解决hash冲突引出了threadlocal,threadlocal为什么需要要用弱引用?(把源码从头到尾讲了一遍,面试官说理解的不错) 4.AQS用过吗?提供哪些接口? 5.TCP、Ip
本人情况:港硕+1段大厂实习 当时收到了飞书的暑期offer ,所以忍痛拒掉了,后来hr也来加我争取了一下,并且问了一些面试中还可以完善的点,所以整理下来和各位牛友一起分享,希望能对大家有所帮助! 美团数据产品一面,mentor,50分钟 Q:在跨部门的对接中,是如何解决沟通的问题的? 我的回答:1. 信任感的建立:日常工作交付、态度 2. 核心指标的对齐 3. 自己内容的整理、数据支撑
7.10一面 手机面,也没提前约时间,电话打过来就直接面了😭😭😭都没准备好 了解java的内存分配吗? 什么是内存泄露,如何解决内存泄***r>介绍一下java垃圾回收机制。 介绍一下java线程和进程。 多线程的好处。 java创建多线程的方式。 java如何保证线程安全。 说几个java集合。 什么场景下使用什么集合? hashmap是线程安全的吗,hashtable如何保证线程安全的?