1、Spark的作业提交流程? 2、Spark的核心组件有哪些? 3、宽窄依赖的理解,为什么要分宽窄依赖? 4、SparkContext在工作时做了什么事? 5、Spark shuffle有哪些? 6、Hashpartitioner与RangePartitioner的实现 7、对维度建模的理解? 8、雪花模型和星形模型的理解以及优劣对比? 9、线程安全有了解么?介绍下 面试官很友好,是我太菜了,全
无心插柳柳成荫,随便投的厂子,没想到好像是最适合,聊的最好的一家。时间太久了,回忆的面经缺失内容会比较多。 收到意向书的同学可以加意向群:640262555 备注意向岗位即可 timeline: 10.11 一面 一小时 部门内大哥 10.14 笔试 一小时 10.21 二面 一小时 部门leader 10.26 三面 半小时 团队大boss 11.7 hr面 半小时 11.15 意向 面试流程
摘要 数据工程的全流程(数仓建设-数据接入-数据运维-数据分析-数据挖掘)的各个阶段都有涉及... 自我介绍,问了我在百度和蔚来做的工作(数仓),对简历项目中对数据倾斜的发现、解决方法和效果 回答是通过sparkUi中task的输入量和运行时间发现,解决方法是用count估算不同维度下各value的数据条目,然后数量最多的top key进行再赋值后与其他表join 感觉这个地方可以从spark运行
新手入门 - 开发者数据合规与安全承诺书 开发者数据合规与安全承诺书 尊敬的百度统计平台, 为合法合规地使用百度统计产品,我方在使用过程中承诺遵守如下规定: 一、严禁利用百度统计产品传播含有下列内容的信息: 反对宪法所确定的基本原则的; 危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一的; 损坏国家荣誉和利益的; 煽动民族仇恨、民族歧视,破坏民族团结的; 破坏国家民族宗教政策,宣扬邪教和封建
根本没想到会进面,笔试算法题全空,突然约面啥都没准备,本来已经放弃Java开始投非技术岗了。自我介绍的时候提前说了我Java是自学的几个月速成的,所以面试官问的都非常基础。 1 JVM内存结构 2 双亲委派 3 Java的常见集合 4 线程安全的集合 5 HashMap的实现以及并发下线程安全问题 6 是否用过Redis集群(无,直接跳过了) 7 Redis的持久化 8 与数据库的数据一致性问题
9.8 一面(30min) 介绍下自己的项目,项目的内容和使用的技术栈 细挖离线数仓项目 mysql三范式 hive内部表和外部表 hive数据倾斜 一道sql题 9.11 二面(30min) 两张亿级大表join有什么优化方案 场景题:公司通过银行给员工发工资,银行要完成公司账户的扣款和员工账户的收款,这个场景要如何设计,要考虑哪些问题? 介绍下离线数仓项目,几个人完成,多久完成,有哪些难点,现
快手二面(已挂): 两道算法题: 1. topk 快排以及快排的优化 2. 二叉树最大路径和 flink相关的一些题 其他忘了... 饿了么二面(已挂): 介绍下实验室的项目 简历上的实时数仓项目 平时学习方式是什么? 你有哪些主动走出舒适区的经历? 你的优点/缺点有哪些?为改正自己的缺点做过哪些努力? 你受过最大的挫折和困难是什么? 你有哪些有成就感的经历? 你选择岗位和公司有哪些考虑?
一、选择题 总计20道 408内容+大数据框架(Hadoop、Spark、Flink等) 有单选,也有多选 二、编程题 第一题:小红书推荐系统 统计热点词频;输入一个字符串,统计词频后,按照词频从高到低打印热搜单词(出现次数超过3,同时对于两个词频相同的单词,要按单词字典序打印 public static void main(String[] args) { Scanner sc = n
最近面试强度上来了...两天四场 饿了么一面(40min): 介绍下实时项目 对DWD和DIM层的理解,构建过程(背了套理论,面试官听笑了..) 开发DWS层的目的(避免重复建设,数据一致性) Hive倾斜优化 kafka底层数据存储(log文件分段,稀疏索引,mmap,零拷贝) flink状态 flink checkpoint作用 一道sql题 没实习被diss了,面试官说做数仓的话更看重对业务
不知道是不是KPI,感觉这个过程也有点奇妙。 刚从腾讯云智回来,9月底的时候,突然就邀请我面试了?!没有打电话问时间。而且最重要的是,我不符合他的岗位要求呀,我不会大数据的东西呀,简历上也没写,结果他突然捞我了。那时候我就已经开始担心是不是KPI。 不过我那时候才刚回校太累了,就延期,好家伙结果面试官直接给延期到国庆后。 然后面试那天,面试官提前15分钟进入会议。我那时候本来在等时间到,结果会议突
京东零售,从后端调剂到大数据,hr之前说的不会问大数据,也确实没问,但是不妨碍我拉了一泡大的 1.自我介绍 2.写题-搜索螺旋排序数组(两个月没写过lc了,大汗淋漓,之后还是没写出来) 3.常见的排序算法,时间复杂度,空间复杂度 4.synchronized关键字的使用 5.volatile关键字,和synchronized的区别 6.Java的内存回收怎么做的 7.hashmap和treemap
巨人网络\春招\数据开发\笔试\hard 数仓-SQL面试题-实录 字段:uid 用户ID、artical_id 文章ID、in_time 进入时间、out_time 离开时间、sign_cin 是否签到 问题:统计每天的日活数及新用户占比 注: 新用户占比 = 当天的新用户数/当天活跃用户数(日活数) 如果in_time 进入时间 和 out_time 离开世界跨天了,在跨天的每天都记为该用户活
#浪潮25提前批# 时长10分钟 1.为什么投数据岗 2.了解和使用过哪些数据库 3.如何提高MSQL查询效率 4.接触过python脚本吗 5.python中的命名空间是什么 6.java开发过程中遇到最多的报错是什么 7.数组越界产生的原因,如何解决 8.空指针在什么情况下会产生,如何解决 9.equals和==的区别 10.还有哪些方面的知识想更多学习一下 11.对大数据比较感兴趣吗
本文向大家介绍asp.net实现Postgresql快速写入/读取大量数据实例,包括了asp.net实现Postgresql快速写入/读取大量数据实例的使用技巧和注意事项,需要的朋友参考一下 最近因为一些项目需要大量插入数据,研究了下asp.net实现Postgresql快速写入/读取大量数据,所以留个笔记 环境及测试 使用.net驱动npgsql连接post数据库。配置:win10 x64, i
本文向大家介绍phpexcel导入excel处理大数据(实例讲解),包括了phpexcel导入excel处理大数据(实例讲解)的使用技巧和注意事项,需要的朋友参考一下 先下载对应phpExcel 的包就行了https://github.com/PHPOffice/PHPExcel 下载完成 把那个Classes 这个文件夹里面的 文件跟文件夹拿出来就好了。 直接写到PHPExcel 这个文件里面的