我计划编写一个批处理分布式计算系统,它将使用大约10-20台计算机。系统某些部分的数据流约为50GB,其他部分的数据流约为1GB。 我正在考虑使用Hadoop。可扩展性并不重要,但我真的很喜欢Hadoop framewok提供的容错和推测运行功能。MPI或gearman等框架似乎不提供这样的机制,我将不得不自己实现它们。 然而,我有一些疑问,因为它似乎是针对更大的数据量和可能更多的计算机进行优化的
我们不确定从这里到哪里去,完全被困住了。有人能帮忙吗?我们到处找了一些例子来帮忙。
1面(1h)8.2 项目介绍 MapReduce提交作业流程 MapReduce和spark的区别 HDFS架构 HDFS写流程 groupByKey和reduceBykey的区别 算法题(实现一个类,插值(已存在就false,不存在就插入),删除值(不存在这个值就返回false,存在就删除),随机获取已存储的值,三个功能时间复杂度为O(1)) 2面(45min)8.10 项目介绍 数仓理解 ja
9.4 下午面完全部 9.9 已意向 一面 40min warm-up 自我介绍? 介绍数仓分层架构? 写SQL temp表 user_id,order_date 求出每位用户的第一次下单信息? 如何优化SQL?利用 Hive 按照日期分区的特点进行优化,写SQL。 留存率是如何计算的?写一下? 再写一个如何计算7日内留存率? 基础知识 说一下数据倾斜的概念? 说一下MapReduce Map端会
面试官是个小姐姐,很温柔 自我介绍 了解大数据组件吗 不了解 了解数据仓库吗 不了解 简单讲一下项目 rabbitMQ 在项目中怎么用的 了解kafka吗 不了解 springboot 打包方式 jar包、war包 怎么部署Linux 没部署过 说一下慢sql排查以及优化手段 慢查询日志,explain,索引
个人情况简述:本硕双非,acm银牌 群友(cpp实习生)内推投递 因为是之前面的,时间也有1个多月了,可能记不太清一些细节了 一面(总时长90分钟) 聊简历项目,一个离线大数据处理项目,flume+hadoop+hive+spark+azkaban,两个后端项目 项目扣细节,主要问设计思路,比如数仓各层的设计、flume和kafka之间如何结合使用,spark的算子等 项目一共问了40多分钟 接下
23.9.21 广立微 共计半小时 在阿里做的项目介绍一下 充电场站项目。。。 用户画像项目详细介绍 java大数据去重的方法 python数据清洗用的什么方法 你们阿里的数据中台中表是以什么格式存储的 模型的评级标准是什么样的 python直接取一行数据 hive窗口函数,一个省一个市,取人口最多的两个城市 hive的行转列和列转行用什么函数 lead和lag是干什么的 mysql不同的关键字的
面试内容 一面(乙方): 1、聊一下熟悉的数据库,关系型,非关系型都说一下? 2、介绍一下clickhouse,为什么用它? 3、说一下简历上项目,数仓的分层架构,每一层的作用? 4、入库做数据清洗吗?还是后续在数仓中过滤?说一下实际的做法 5、数据同步是怎么做的?你在项目中的角色?(说了kafka) 6、你这个是离线的数仓吗?你觉得什么需要做数仓? 7、为什么用flinkcdc? 8、spark
前面的IEG秒挂后2天被这个部门捞了,这几天准备了下算法,但是项目有点懈怠了 时间:3月11日 14:40 ,时长45分钟 全程拷打Java项目,掺了一些业务相关的八股 拷打查询优化细节: 因为项目亮点手贱,写了用Redis缓存优化前时间、优化后时间。结果疯狂拷打怎么得出的优化时间 其实是编的数据😭😭,引以为鉴!! ⭕查询时间是怎么测出来的? 肉眼对比效果 + 查询前时间 对比 查询后时间 ❌
1、自我介绍 2、跳槽理由 3、介绍团队 4、自己感觉做的最好的项目(扣的很细,聊了很久) 5、遇到过的技术问题 6、数据倾斜如何解决 7、缓慢变化维怎么解决 8、周期变化事实数据,比如七天累计订单表应该放哪一层?为什么? 9、什么数仓才算一个好的数仓 10、雪花模型跟星型模型区别 11、写sql题 12、反问 面了三家 淘天、字节、pdd,都offer了,这个草稿也是当时写的一直忘发了,后面有空
115、Spark的任务执行流程 driver和executor,结构式一主多从模式,driver:spark的驱动节点,用于执行spark任务中的main方法,负责实际代码的执行工作;主要负责:将代码逻辑转换为任务、在executor之间调度任务、跟踪executor的执行情况。 Executor:spark的执行节点,是jvm的一个进程,负责在spark作业中运行具体的任务,任务之间相互独立,
10选择 5填空 基本都是计网、数据结构 1简答 设计一个业务数据管理系统 1编程 求回文子串数量 专业性不强感觉全是八股
我有大约500MB的H2数据库。 H2的版本是1.2.147。 数据库的存储引擎是PageStore。 JDBC URL如下所示。 jdbc:h2:file://C:/h2/client;如果存在=真;MVCC=真;数据库\u事件\u侦听器。H2DBMonitor';AUTO_SERVER=TRUE;对数=2 我做了一个版本的H2 1.4.192没有改变数据库的存储引擎。 当我的客户使用数据库时,
昨天面的,三个面试官。 开始就是自我介绍。 1、第一个面试官问了问我一个数学建模的题目。我自己提了一嘴lstm,问了一下三个门 2、问了个sql题目,id不一样,邮箱有重复,怎么选出来,说用pandas也可以,问我pandas,不过我确实不常用pandas就没答出来 3、场景题,有通讯时间、地点、上网记录,如何判断哪些人是学生。 第二个问我懂不懂kafka、Hbase这些,我说不懂,就结束了。 感
一面 实习深挖 对于高耗时任务的代码优化思路 如何发现不必要的扫表 sparksql和hivesql有什么区别 sparksql和hive on spark性能有差异吗,差异在哪 hdfs架构 datanode心跳机制 datanode挂了之后会怎么样,容错机制是怎么样 机架感知 有限内存下的一亿数据怎么排序 了解哪些shell命令 有a,b两个文件,存的都是id,写shell找出a中有但b中没有