当前位置：首页 > 专题 >

《大数据开发》专题

Hadoop对数据流不太大的系统有开销吗？
我计划编写一个批处理分布式计算系统，它将使用大约10-20台计算机。系统某些部分的数据流约为50GB，其他部分的数据流约为1GB。我正在考虑使用Hadoop。可扩展性并不重要，但我真的很喜欢Hadoop framewok提供的容错和推测运行功能。MPI或gearman等框架似乎不提供这样的机制，我将不得不自己实现它们。然而，我有一些疑问，因为它似乎是针对更大的数据量和可能更多的计算机进行优化的
Java Spark-Java.lang.outofMemoryError：超过GC开销限制-大型数据集
我们不确定从这里到哪里去，完全被困住了。有人能帮忙吗？我们到处找了一些例子来帮忙。
字节 Data 大数据开发工程师1 2 3 4面已挂
1面（1h）8.2 项目介绍 MapReduce提交作业流程 MapReduce和spark的区别 HDFS架构 HDFS写流程 groupByKey和reduceBykey的区别算法题（实现一个类，插值（已存在就false，不存在就插入），删除值（不存在这个值就返回false，存在就删除），随机获取已存储的值，三个功能时间复杂度为O(1)） 2面（45min）8.10 项目介绍数仓理解 ja
贝壳大数据开发一二面+HR面面经已发意向
9.4 下午面完全部 9.9 已意向一面 40min warm-up 自我介绍？介绍数仓分层架构？写SQL temp表 user_id，order_date 求出每位用户的第一次下单信息？如何优化SQL？利用 Hive 按照日期分区的特点进行优化，写SQL。留存率是如何计算的？写一下？再写一个如何计算7日内留存率？基础知识说一下数据倾斜的概念？说一下MapReduce Map端会
奇瑞汽车-雄狮科技大数据开发一面（15分钟）
面试官是个小姐姐，很温柔自我介绍了解大数据组件吗不了解了解数据仓库吗不了解简单讲一下项目 rabbitMQ 在项目中怎么用的了解kafka吗不了解 springboot 打包方式 jar包、war包怎么部署Linux 没部署过说一下慢sql排查以及优化手段慢查询日志，explain，索引
北京蔚来大数据开发实习一面、二面（回忆版）
个人情况简述：本硕双非，acm银牌群友（cpp实习生）内推投递因为是之前面的，时间也有1个多月了，可能记不太清一些细节了一面（总时长90分钟）聊简历项目，一个离线大数据处理项目，flume+hadoop+hive+spark+azkaban，两个后端项目项目扣细节，主要问设计思路，比如数仓各层的设计、flume和kafka之间如何结合使用，spark的算子等项目一共问了40多分钟接下
杭州广立微大数据开发，1面+2面+hr面已offer
23.9.21 广立微共计半小时在阿里做的项目介绍一下充电场站项目。。。用户画像项目详细介绍 java大数据去重的方法 python数据清洗用的什么方法你们阿里的数据中台中表是以什么格式存储的模型的评级标准是什么样的 python直接取一行数据 hive窗口函数，一个省一个市，取人口最多的两个城市 hive的行转列和列转行用什么函数 lead和lag是干什么的 mysql不同的关键字的
某终端外包——大数据开发（最压力拉满的一集）
面试内容一面（乙方）： 1、聊一下熟悉的数据库，关系型，非关系型都说一下？ 2、介绍一下clickhouse，为什么用它？ 3、说一下简历上项目，数仓的分层架构，每一层的作用？ 4、入库做数据清洗吗？还是后续在数仓中过滤？说一下实际的做法 5、数据同步是怎么做的？你在项目中的角色？（说了kafka） 6、你这个是离线的数仓吗？你觉得什么需要做数仓？ 7、为什么用flinkcdc？ 8、spark
腾讯实习一面-PCG大数据平台-运营开发面经
前面的IEG秒挂后2天被这个部门捞了，这几天准备了下算法，但是项目有点懈怠了时间：3月11日 14：40 ，时长45分钟全程拷打Java项目，掺了一些业务相关的八股拷打查询优化细节：因为项目亮点手贱，写了用Redis缓存优化前时间、优化后时间。结果疯狂拷打怎么得出的优化时间其实是编的数据😭😭，引以为鉴！！ ⭕查询时间是怎么测出来的？肉眼对比效果 + 查询前时间对比查询后时间 ❌
字节跳动大数据开发工程师一面面经（社招）
1、自我介绍 2、跳槽理由 3、介绍团队 4、自己感觉做的最好的项目(扣的很细，聊了很久) 5、遇到过的技术问题 6、数据倾斜如何解决 7、缓慢变化维怎么解决 8、周期变化事实数据，比如七天累计订单表应该放哪一层？为什么？ 9、什么数仓才算一个好的数仓 10、雪花模型跟星型模型区别 11、写sql题 12、反问面了三家淘天、字节、pdd，都offer了，这个草稿也是当时写的一直忘发了，后面有空
【这才是重量级框架】大数据开发面试题【Spark篇】
115、Spark的任务执行流程 driver和executor，结构式一主多从模式，driver：spark的驱动节点，用于执行spark任务中的main方法，负责实际代码的执行工作；主要负责：将代码逻辑转换为任务、在executor之间调度任务、跟踪executor的执行情况。 Executor：spark的执行节点，是jvm的一个进程，负责在spark作业中运行具体的任务，任务之间相互独立，
大疆车载数开笔试
10选择 5填空基本都是计网、数据结构 1简答设计一个业务数据管理系统 1编程求回文子串数量专业性不强感觉全是八股
为什么H2数据库文件的大小要比数据大小大得多？
我有大约500MB的H2数据库。 H2的版本是1.2.147。数据库的存储引擎是PageStore。 JDBC URL如下所示。 jdbc:h2:file://C:/h2/client；如果存在=真；MVCC=真；数据库\u事件\u侦听器。H2DBMonitor'；AUTO_SERVER=TRUE；对数=2 我做了一个版本的H2 1.4.192没有改变数据库的存储引擎。当我的客户使用数据库时，
联通数科一面数据开发
昨天面的，三个面试官。开始就是自我介绍。 1、第一个面试官问了问我一个数学建模的题目。我自己提了一嘴lstm，问了一下三个门 2、问了个sql题目，id不一样，邮箱有重复，怎么选出来，说用pandas也可以，问我pandas，不过我确实不常用pandas就没答出来 3、场景题，有通讯时间、地点、上网记录，如何判断哪些人是学生。第二个问我懂不懂kafka、Hbase这些，我说不懂，就结束了。感
百度大数据研发实习
一面实习深挖对于高耗时任务的代码优化思路如何发现不必要的扫表 sparksql和hivesql有什么区别 sparksql和hive on spark性能有差异吗，差异在哪 hdfs架构 datanode心跳机制 datanode挂了之后会怎么样，容错机制是怎么样机架感知有限内存下的一亿数据怎么排序了解哪些shell命令有a，b两个文件，存的都是id，写shell找出a中有但b中没有

首页

13

14

15

16

17

18

19

20

21

尾页

最新发布

影石360 AI平台开发一面手子感谢信山东移动一面面经 PDD四面面经不鸣科技 - ai工程师一面抑郁经验

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

30. 串联所有单词的子串 c++自己解答无法通过,可以帮我看看代码错在哪里吗？web - 在Deepin23系统中设置虚拟域名，但在浏览器中无法访问？amh - 7.2版本的集中管理服务器列表非常不方便可以优化一下么？javascript - vue input 文件上传为什么@change不触发？vue.js - Vuetify 框架怎么查看有哪些CSS 类名，如何查询？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

XMMultiSelectView JEECG Multiavatar OneVideo Habitica 猪齿鱼 Choerodon jekyll-dash Gudong

文档资料

Internet Explorer 维护帮助手册 Spring Boot 中文教程廖雪峰 JavaScript 教程 Canvas 实操教程 F-Secure Policy Manager - 管理员指南 v13.10