当前位置: 首页 > 面试经验 >

三一重工23届校园提前批大数据开发工程师岗笔试

优质
小牛编辑
153浏览
2023-03-28

三一重工23届校园提前批大数据开发工程师岗笔试


三一重工笔试大家都说挺简单的,还是提前批,所以最近也没抽时间来复习,直接上来裸考。
题目全是选择题,有三十道单选题,十道多选题。笔试限时一小时做完,实际上不到十分钟大部分就选完了。以下凭记忆记录几个题目,当然我也很多没做对~ 算是查缺补漏了。

1. hadoop 环形缓冲区大小? 
100M
2. spark 行动算子和转换算子识别? 
转换算子(Transformations)

行动算子
参考链接: https://blog.csdn.net/weixin_44735572/article/details/102687761

3. sqoop是什么?
sqoop是连接关系型数据库和hadoop的桥梁,主要有两个方面(导入和导出):
A. 将关系型数据库的数据导入到Hadoop 及其相关的系统中,如 Hive和HBase
B. 将数据从Hadoop 系统里抽取并导出到关系型数据库
4. hive内部表和外部表都能使用location吗?
加location时,在hdfs的目录/user/hive/warehouse下没有以该表名命名的目录;
不加location时则存在以该表名命名的目录。
加location时,加载数据时会在location后面所在的目录下创建分区目录或者数据目录。
5. hive中sort by  和order by 的区别
Hive基于Hadoop的mapreduce来执行分布式程序的,和普通单机程序不同的一个特点就是最终的数据会产生多个子文件,每个reducer节点都会处理partition给自己的那份数据产生结果文件,
这导致了在Hadoop环境下很难对数据进行全局排序,如果在Hadoop上进行order by全排序,会导致所有的数据集中在一台reducer节点上,
然后进行排序,这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败。
一种替代的方案则是放弃全局有序,而是分组有序,比如不求全百度最高的点击词排序,而是求每种产品线的最高点击词排序。
使用order by会引发全局排序
select * from baidu_click order by click desc;
使用distribute和sort进行分组排序
6.Hadoop上大量小文件的问题
HDFS 上存在大量的小文件(这里说的小文件是指文件大小要比一个 HDFS 块大小(在 Hadoop1.x 的时候默认块大小64M,可以通过dfs.blocksize 来设置;但是到了 Hadoop 2.x 的时候默认块大小为128MB了,可以通过 dfs.block.size 设置) 小得多的文件。)至少会产生以下几个负面影响:

1. 大量小文件的存在势必占用大量的 NameNode 内存,从而影响 HDFS 的横向扩展能力。
2. 另一方面,如果我们使用 MapReduce 任务来处理这些小文件,因为每个 Map 会处理一个 HDFS 块;这会导致程序启动大量的 Map 来处理这些小文件,( 读取小文件数据的任务执行时,消耗过多的集群资源。因为map task在执行的时候一般只处理1个文件,如果这个时候要读取的文件过多,就会造成大量的map task启动。) 虽然这些小文件总的大小并非很大,却占用了集群的大量资源
————————————————
版权声明:本文为CSDN博主「怒上王者」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_36815898/article/details/90764410


#三一重工##大数据开发##23届提前批#
 类似资料: