1 介绍下你自己 我按照常规的套路,先自我介绍,然后介绍我的项目,想引导着问些八股,但是好像没用😂 2 32位和64位你能联想到什么,从机组操作系统,数据结构等角度,开放性的谈一下你的理解😂😂 这个问题直接问了15分钟 3 手撕代码 给你一个应用场景,设计合适的数据结构,并完成两个功能函数 看出来是树了😂😂,但是没咋刷算法,以为只问sql,我的格局小了,写了二十分钟,一点不会😂😂 总
1.数仓和数据库的区别 2.数仓建模 3.hive用到的函数 4.rank,dense_rank,row_number的区别 5.hive数据倾斜的原因有哪些 7.如何理解数据质量? 6.java,scala会用吗? 7.期望薪资多少?(感觉说出来就无了) 面的初级岗位。
有幸收到阿里大文娱的实习一面,面试官是个很温柔的姐姐,下面记录一下问题: 1.自我介绍 2.说一下你的两个项目,挑一个讲(我挑了Flink相关的一个项目讲) 3.checkpoint怎么做的 4.exactly-once的语义是怎么实现的 5.你了解反压吗? 6.在校课程会学什么 7.你是怎么理解数据科学的?(科学的去获取、存储、处理、分析、挖掘数据) 8.你提到数据分析,你可以讲讲数据分析的思路
选择题(15道): 以xx为基准的一趟快排后的结果 分块查找的比较次数 给定入栈元素计算出栈序列的可能性 简单无向图的邻接矩阵零元素数量 哈夫曼编码一个字符串所需的编码长度 ping没有用到的网络协议 操作系统创建进程的过程 电话号码前缀查重需要的内存 (别的忘了,整体还好,纯408真题) 填空题(5道): 二叉排序树的查找 多线程的四种同步方式 IP子网划分求掩码 (别的忘了,都不难) 简答题(
面试内容 一面: 1、对那些数据库比较熟悉? 2、mysql优化? 3、数仓的架构,每一层的作用? 4、你做的项目中数据清洗放在哪一层? 5、数据怎么接入数仓的? 6、实时项目也做过?说一下flink处理数据的流程 7、任务断了,有重复数据怎么办?(我以flink为例说了怎么避免) 二面:不问技术 1、之前实习交过社保没? 2、从之前的上司那里学到了什么?只说一点 3、对未来的规划? 4、整体的实
问题内容: 我打开kibana并进行搜索,但出现碎片失败的错误。我查看了elasticsearch.log文件,然后看到此错误: 有什么办法可以增加593.9mb的限制? 问题答案: 您可以尝试在配置文件中将fielddata断路器的限制提高到75%(默认值为60%),然后重新启动集群: 或者,如果您不想重启群集,则可以使用以下方法动态更改设置: 试试看。
大数据 概述 大数据: 收集到的数据已经远远超出了我们的处理能力。 大数据 场景 假如你为一家网络购物商店工作,很多用户访问该网站,其中有些人会购买商品,有些人则随意浏览后就离开。 对于你来说,可能很想识别那些有购物意愿的用户。 那么问题就来了,数据集可能会非常大,在单机上训练要运行好几天。 接下来:我们讲讲 MapRedece 如何来解决这样的问题 MapRedece Hadoop 概述 Had
自我介绍 数仓分层 为什么分层 为什么建模 星型模型,雪花模型 数据库的三范式 范式建模和维度建模的区别,优缺点 如果给你一个任务,一个月完成,你怎么规划 反问 oc
一面 英文自我介绍 mr的shuffle zookeeper选举 spark内存管理 hbase中region的拆分 数仓中都有什么表 怎么处理缓慢变化维,拉链表有用过吗 yarn的架构 namenode ha的实现 namenode启动过程中怎么确定哪个是active哪个是standby spark sql用的多吗 手撕 中等leetcoode,合并区间 二面 自我介绍 家哪里的 对博世有什么了
一面:55min 0、自我介绍 1、介绍一下项目,一个离线,一个实时。离线Hive on Spark 实时:Flink + Kafka 2、Spark作业流程、Client,Cluster模式 3、Flink水位线,窗口,FlinkSQL,时间语义和SparkStreaming区别 4、Hive事实表、应用场景 5、实时项目怎么做的,FlinkSQL怎么用的 6、查找算法,排序算法有啥,说说冒泡,
fink生态 spark生态 hadoop生态 大数据技术体系与主流技术栈
2018年的20个主要的大数据认证 “大数据”一词反映了一个非常实际的增长趋势。到2020年,每个人每秒将产生1.7MB数据。根据调研机构IDC公司的调查,2020年全球数据量将增加到44万亿GB。数以亿计的智能手机和数十亿台物联网(IoT)设备每分钟产生的近300万个Facebook帖子和近300万个视频,每秒约有40,000次谷歌搜索查询。 而大数据认证的数量也在不断增加,尽管不尽相同。这些资
投的 Teg 云架构平台,结果被大数据捞了,一面就挂了。 一面 3.28 自我介绍 介绍冷存储项目 介绍阿里tianchi比赛 线程和进程区别,协程和线程区别? 页表实现 如果访问进程地址空间,在page table 中找不到,会发生什么? 做题 输入一串0和1组成的字符串。重新排列这个字符串使得任何一个字符都不是它前面两个字符的和。比如011就不满足,因为0+1=1。 010,110,111都是
#美团暑期[话题]##美团暑期[话题]##美团数据开发# 4.8美团数据开发一面,记录一下面经供大家参考,同时积攒人品,希望顺利OC。(25暑期转正实习) 面试官人很好,整个面试过程约一小时十五分钟,非常nice,面试官全程视频,也给了我很多建议,受益匪浅,整个过程八股较少,都是穿插项目问八股,感觉面试官一直在从我会的角度深入。具体如下: 1.你知道hive的窗口函数吗,窗口函数有哪些,都是干什么
求大佬推荐个数据处理的开源项目,功能大概包含元数据管理、数据质量管理、数据共享交换、数据资源目录等几大功能?搜变gitee 也没找到个