2022/10/11 一面 30min 自我介绍 实习项目介绍 项目中你做了什么任务 实习项目难点 阿里云大数据框架怎么学习的 大数据开发具体想做什么方向 hive中的开窗函数用过吗 rank、dense_rank、row_number区别 hive行转列 列转行 spark用过吗 spark为什么比MapReduce快 spark数据倾斜遇到过吗 数据倾斜怎么解决的 Java中的HashMap底
一面时间:2022.10.13 星期四 10:30-10:45 和HR聊天比较多 自我介绍 是否了解就业地点? 兴趣爱好 优缺点是什么? 现在有没有女朋友?(???这都要问,哈哈哈) 是否考虑考研?为什么? 大学期间参加过什么项目?简单介绍一下 面对一个新技术怎么去学习? 大学期间最后悔的事? 期望薪资是多少? -------------------------------------------
自我介绍 问对hadoop各个组件的了解 解释下mapreduce的过程 问有没看过谷歌的GFS论文 问项目里数据库咋建模设计的 对维度建模的了解 对数仓的了解,数仓一般咋分层 GGGG,这之前只关注框架底层了,,没看过数仓的东西#大数据开发面经##实习生[话题]##access#
2.9上午面试,时间不到9min 1、自我介绍(1min) 2、英文回答平时怎么学习(措手不及-答得很烂) 3、情景题 4、投递贵公司最看重的三个因素 5、希望税前月薪 6、接受其他岗位调剂吗 7、北京户口有需求吗 疑问:这次面试是秋招补录还是春招?有同一天面试的同学了解情况的能说说吗,如果有后续消息麻烦告知下lz 更新: 2.14 下午收到签约会通知 #春招# #联通面试# #国企#
返校前最后篇面经 这两次面试官感觉都挺满意的,,估计能有offer了 百度大数据研发一面(就一面) 2.22 自我介绍 项目 1.爬虫和识别匹配的细节 2.爬虫异常情况 3.内部表外部表区别 4.数据量大小 5.推荐KNN模型距离的细节 技术 6.mapreduce计算过程 7.shuffle细节 8.数据倾斜原因和处理方式 我举了两种 mapjoin 加盐 9.hive窗
笔试时间 90min 20道选择题 + 3道编程题 主要还是考数据库的操作 如何增删查改 如何检索 然后阅读数据库代码 找错误/模拟运行 只有一道算法题 是AcWing_3578题 的变式 个人感觉算是降低难度 每次操作选取两个数 ai 与 aj, 并赋值ai = ai + aj, 删除aj; 中位数计算方式为为(m+1)/2向下取整。 输入第一行数据组数t 此后每组 第一行数组长度n 操作k数
首先做了三道SQL题,主要涉及分组聚合、窗口函数。 3.3 一面 28min: 1.自我介绍 2.为什么要做这个项目 3.介绍DataX 4.项目问题 5.介绍HDFS 6.Hadoop hive hdfs spark关系 7.职业规划 8.数仓分层 9.窗口函数 3.6 二面 45min: 1.自我介绍 2.项目介绍 3.维度模型 4.一道数仓场景题 5.数仓分层 6.SQL常用函数 7.ran
时长:1h 由于问题太多,分四类进行整理 0. 实习相关:之前有数据开发的实习经验,就问了之前工作有没有spark或者hivesql优化的经验;如何确保数据的有效性;实习公司数据存储格式(Parquet),还知道哪些数据存储格式 1. 大数据相关问题:为什么Spark比MR快;对Spark的了解;两个表join的优化方法(大小表join可以map-side join, join前过滤null值);
总共33min,凉透了,可能因为我是第一次面试,没经验,被面试官牵着鼻子走 1、数据仓库和数据库的区别 2、数仓的分层 3、维度建模的基本构成 4、了解缓慢变化维吗 5、说一下拉链表 6、用到了哪些用户指标作为算法的输入呢? 7、协同过滤的常用算法有了解吗? 8、Presto和Hive区别 9、Hivesql和sparksql区别 10、Sql:统计最近下单的用户是在去年12月份的用户数量 11、
个人情况简述:本硕双非,acm银牌 测评答的个人感觉不错,笔试AK 测评隔天笔试(第一批),之后就跟大部队流程差不多约了一、二面 一面(总时长50分钟),二面(总时长40分钟) 纯业务理解,深挖实习经历和项目经历 提出的问题多为数仓设计问题和开放性问题,基本都是大量的对话和交流,因为很多想法是结合项目经验的临场idea,个人没有记录 携程给我的感觉就是,如果你做过很多项目,阅读过大量相关设计的学习
#暑期# #投递实习岗位前的准备# 3月23日--分享个经验,求个好运 时长一个小时二十分钟 自我介绍 因为学统计的,问了中心极限定理和大数据定律 机器学习-XGBoost算法简介 两道智力题:逻辑判断谁说谎了和分金条 问了为什么研究生跨专业保研了? Hive和MySQL区别 数据库的索引有什么用 说一下索引的类型,还有B+树索引 数据仓库和关系型数据库区别 Hadoop生态圈简介 问我SQL写的
基于SuperMap 9D产品,构建了一个针对人口移动进行相关分析的平台,用Elasticsearch作数据存储,SuperMap iServer 作数据分析和发布的服务器,SuperMap iClient作前端客户端展现的开发平台,通过出租车数据进行不同空间尺度和不同时间尺度下的人口、岗位分布情况分析,并得到各区域范围的通勤交换关系,对主城及市域进行人群移动分析,为城市交通规划提供数据参考和决策
针对空间数据可视化渲染的技术,涌现出很多优秀的产品,包括地图库的渲染产品以及可视化效果的可视化库。 主流的开源地图库 OpenLayers,业内使用较为广泛的地图库,OpenLayers3完成了面向对象的重构,同时也进行了h5升级;Leaflet,一款实践多、社区活跃、插件丰富的开源地图库,Mapbox早期的地图库就是基于Leaflet开发的;Mapbox GL,其推出的矢量瓦片可视化效果和性能都
在大数据可视化发生不断变化的同时,空间大数据在可视化方面,也出现了巨大的变化,同时涌现出了一系列全新的可视化表达效果,如热力图,格网图等,图 四 1展示了空间分析方法与空间可视化技术的对应关系。 热力图和密度图 热力图和密度图两种专题图可以为用户呈现一种趋势,从数据变化的趋势中,找到规律,辅助决策。通常用于聚合分析、区域汇总、热点分析和密度分析结果的效果展示。如图1和图2所示,该图展现了全球航班的
第 6 章 大量数据的表示和处理 第 2 章讨论了现实世界信息在计算机中的抽象表示问题,那里主要介绍的是简单数据, 而本章将继续介绍复杂数据的表示和处理。简单数据一般指单个数据,并且没有内部结构, 不可分割。复杂数据正相反,可在两方面呈现复杂性:一是数量多,即待处理的数据是由大 量相互关联的成员数据组成的;二是有内部结构,即数据在内部由若干分量组成,每个分量 本身可能又由更小的分量组成。对于大量数