三一重工23届校园提前批大数据开发工程师岗笔试

优质

小牛编辑

177浏览

2023-03-28

三一重工笔试大家都说挺简单的，还是提前批，所以最近也没抽时间来复习，直接上来裸考。

题目全是选择题，有三十道单选题，十道多选题。笔试限时一小时做完，实际上不到十分钟大部分就选完了。以下凭记忆记录几个题目，当然我也很多没做对~ 算是查缺补漏了。

1. hadoop 环形缓冲区大小？

100M

2. spark 行动算子和转换算子识别？

转换算子（Transformations）

行动算子

参考链接： https://blog.csdn.net/weixin_44735572/article/details/102687761

3. sqoop是什么？

sqoop是连接关系型数据库和hadoop的桥梁，主要有两个方面(导入和导出)：
A. 将关系型数据库的数据导入到Hadoop 及其相关的系统中，如 Hive和HBase
B. 将数据从Hadoop 系统里抽取并导出到关系型数据库

4. hive内部表和外部表都能使用location吗？

加location时，在hdfs的目录/user/hive/warehouse下没有以该表名命名的目录；
不加location时则存在以该表名命名的目录。
加location时，加载数据时会在location后面所在的目录下创建分区目录或者数据目录。

5. hive中sort by 和order by 的区别

Hive基于Hadoop的mapreduce来执行分布式程序的，和普通单机程序不同的一个特点就是最终的数据会产生多个子文件，每个reducer节点都会处理partition给自己的那份数据产生结果文件，
这导致了在Hadoop环境下很难对数据进行全局排序，如果在Hadoop上进行order by全排序，会导致所有的数据集中在一台reducer节点上，
然后进行排序，这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败。
一种替代的方案则是放弃全局有序，而是分组有序，比如不求全百度最高的点击词排序，而是求每种产品线的最高点击词排序。
使用order by会引发全局排序
select * from baidu_click order by click desc;
使用distribute和sort进行分组排序

6.Hadoop上大量小文件的问题

HDFS 上存在大量的小文件（这里说的小文件是指文件大小要比一个 HDFS 块大小(在 Hadoop1.x 的时候默认块大小64M，可以通过dfs.blocksize 来设置；但是到了 Hadoop 2.x 的时候默认块大小为128MB了，可以通过 dfs.block.size 设置) 小得多的文件。）至少会产生以下几个负面影响：

1. 大量小文件的存在势必占用大量的 NameNode 内存，从而影响 HDFS 的横向扩展能力。
2. 另一方面，如果我们使用 MapReduce 任务来处理这些小文件，因为每个 Map 会处理一个 HDFS 块；这会导致程序启动大量的 Map 来处理这些小文件，( 读取小文件数据的任务执行时，消耗过多的集群资源。因为map task在执行的时候一般只处理1个文件，如果这个时候要读取的文件过多，就会造成大量的map task启动。) 虽然这些小文件总的大小并非很大，却占用了集群的大量资源
————————————————
版权声明：本文为CSDN博主「怒上王者」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_36815898/article/details/90764410

#三一重工##大数据开发##23届提前批#

三一重工23届校园提前批大数据开发工程师岗笔试

热门公司

相关阅读

推荐文章

推荐题库

推荐问答