首先做了三道SQL题,主要涉及分组聚合、窗口函数。 3.3 一面 28min: 1.自我介绍 2.为什么要做这个项目 3.介绍DataX 4.项目问题 5.介绍HDFS 6.Hadoop hive hdfs spark关系 7.职业规划 8.数仓分层 9.窗口函数 3.6 二面 45min: 1.自我介绍 2.项目介绍 3.维度模型 4.一道数仓场景题 5.数仓分层 6.SQL常用函数 7.ran
时长:1h 由于问题太多,分四类进行整理 0. 实习相关:之前有数据开发的实习经验,就问了之前工作有没有spark或者hivesql优化的经验;如何确保数据的有效性;实习公司数据存储格式(Parquet),还知道哪些数据存储格式 1. 大数据相关问题:为什么Spark比MR快;对Spark的了解;两个表join的优化方法(大小表join可以map-side join, join前过滤null值);
总共33min,凉透了,可能因为我是第一次面试,没经验,被面试官牵着鼻子走 1、数据仓库和数据库的区别 2、数仓的分层 3、维度建模的基本构成 4、了解缓慢变化维吗 5、说一下拉链表 6、用到了哪些用户指标作为算法的输入呢? 7、协同过滤的常用算法有了解吗? 8、Presto和Hive区别 9、Hivesql和sparksql区别 10、Sql:统计最近下单的用户是在去年12月份的用户数量 11、
- 3/9笔试 - 选择题大概三四十个 - 问答题10个,涉及python,HSFS八股,Java八股 - 3/14一面,全是快问快答25min - 问简历,项目介绍,项目中提到的模型被揪出来问了细节 - 常见的机器学习算法讲讲,深度学习会多少呢? - 编程语言?希望会Java - 各种排序算法,时间复杂度,随便介绍几个呗 - Python的装饰器 - 指针和引用的区别(这是C++,但是当时并不知
个人情况简述:本硕双非,acm银牌 测评答的个人感觉不错,笔试AK 测评隔天笔试(第一批),之后就跟大部队流程差不多约了一、二面 一面(总时长50分钟),二面(总时长40分钟) 纯业务理解,深挖实习经历和项目经历 提出的问题多为数仓设计问题和开放性问题,基本都是大量的对话和交流,因为很多想法是结合项目经验的临场idea,个人没有记录 携程给我的感觉就是,如果你做过很多项目,阅读过大量相关设计的学习
#暑期# #投递实习岗位前的准备# 3月23日--分享个经验,求个好运 时长一个小时二十分钟 自我介绍 因为学统计的,问了中心极限定理和大数据定律 机器学习-XGBoost算法简介 两道智力题:逻辑判断谁说谎了和分金条 问了为什么研究生跨专业保研了? Hive和MySQL区别 数据库的索引有什么用 说一下索引的类型,还有B+树索引 数据仓库和关系型数据库区别 Hadoop生态圈简介 问我SQL写的
1.自我介绍 2.说一下数据库范式 3.说一下Hbase 4.Hbase的rowkey怎么设计的 5.说一下Clickhouse 6.说一下你了解的数据库底层的一些知识 7.数仓为什么这样分层 8.数据表和数据视图的区别 9.实习 数仓让你觉得有成就感的地方 10.你对离线感兴趣还是对实时感兴趣 11.你知道OLAP数据库都有哪些 12.Sql题 13.Hive Spark优化掌握的怎么样? 14
电话技术面,业务部门直接打电话,看到很少有牛友发这个岗位所以记录一下。 大概十五分钟左右,也可能是我答的不好所以问题比较少。 1.自我介绍 2.hadoop生态 3.hdfs读写 4.spark运行机制 5.hive内外表区别 6.常用编程语言 7.反问 面试官人很好的,我最先开始没接到电话,给我打了好几次,不太清楚的问题也没有过多为难。不过太久不面好多都忘记了,答的并不全面估计凉了。
基于SuperMap 9D产品,构建了一个针对人口移动进行相关分析的平台,用Elasticsearch作数据存储,SuperMap iServer 作数据分析和发布的服务器,SuperMap iClient作前端客户端展现的开发平台,通过出租车数据进行不同空间尺度和不同时间尺度下的人口、岗位分布情况分析,并得到各区域范围的通勤交换关系,对主城及市域进行人群移动分析,为城市交通规划提供数据参考和决策
针对空间数据可视化渲染的技术,涌现出很多优秀的产品,包括地图库的渲染产品以及可视化效果的可视化库。 主流的开源地图库 OpenLayers,业内使用较为广泛的地图库,OpenLayers3完成了面向对象的重构,同时也进行了h5升级;Leaflet,一款实践多、社区活跃、插件丰富的开源地图库,Mapbox早期的地图库就是基于Leaflet开发的;Mapbox GL,其推出的矢量瓦片可视化效果和性能都
在大数据可视化发生不断变化的同时,空间大数据在可视化方面,也出现了巨大的变化,同时涌现出了一系列全新的可视化表达效果,如热力图,格网图等,图 四 1展示了空间分析方法与空间可视化技术的对应关系。 热力图和密度图 热力图和密度图两种专题图可以为用户呈现一种趋势,从数据变化的趋势中,找到规律,辅助决策。通常用于聚合分析、区域汇总、热点分析和密度分析结果的效果展示。如图1和图2所示,该图展现了全球航班的
第 6 章 大量数据的表示和处理 第 2 章讨论了现实世界信息在计算机中的抽象表示问题,那里主要介绍的是简单数据, 而本章将继续介绍复杂数据的表示和处理。简单数据一般指单个数据,并且没有内部结构, 不可分割。复杂数据正相反,可在两方面呈现复杂性:一是数量多,即待处理的数据是由大 量相互关联的成员数据组成的;二是有内部结构,即数据在内部由若干分量组成,每个分量 本身可能又由更小的分量组成。对于大量数
CIO决策世界以全球化、互联网化的思维整合行业热点话题,为企业IT管理者提供最有价值的趋势分析和技术盘点。在这里,你会看到全球各地资深IT观察者的独家观点,你也会得到各行各业IT实践者的独家秘笈。立足中国,放眼全球,让行业趋势分析带动深度思考,让技术盘点推动IT转型。
#校招##秋招#
#国企#一面 约37min 1. 介绍一下项目 2. MongoDB分布式存储是怎么做的? - 数据分片是怎么做的? - 如何保证节点间数据的一致性? - 如果有节点挂掉会怎么办? 1. 地理数据如何索引? 2. 喜欢用什么开发语言? 二面 约40-50min - 自我介绍 - 问了一些奖学金的情况 - 介绍项目经历 - 对分布式事务了解吗?解释一下分布式事务是做什么的 - 如何保证分布式事务的原