让我印象最深的是最后SQL,要求是输出一个保留一位小数的比例,题干都没给具体是哪天。 题目:运营想知道《某天》的用户中30天后再次打车的占比。(没了) 然后给了个表 示例:0.4 应该凉了 part1-----行测 很少会的,规律是一点找不出来 -1,-2,-1,2,7,(),23 -----()里是什么 part2----excel 如果不熟练,我感觉是每天都用的程度,做的很慢,还不一定对 我直
处女面,很紧张 1. 问项目 2. 项目中为什么使用kafka作为缓冲队列。 3. mapreduce原理。 4. 如果mapreduce发生数据倾斜该如何解决。 5. 解释一下列式存储、列式存储的文件格式。 6. 星型模型、雪花模型、星座模型的区别和应用场景。 7. 拉链表是什么、一般解决什么问题。 8. 什么是指标体系、如何明确指标体系。 9. zookeeper、datax等(项目上写的组件
1.自我介绍 2.项目 3.问项目有没有遇到数据倾斜怎么处理 项目有没有OOM怎么处理 项目有没有遇到数据丢失怎么处理 4.lc全排列
9.21号下午一面的,忘记发牛客了,现在补上 一个年轻并且非常友好的面试官,沟通也比较顺畅,完全按照我的简历一条条过,八股很少,问也只会问涉及项目的八股 - 介绍实习部门的业务,数仓架构 - 以下内容都是我简历具体的内容,可能没啥参考意义,中间穿插的一些细节问题有点忘了: - Cube表性能优化,还有其他优化的方法吗 - 表分桶优化,一般表关联还能怎么优化 - 小文件治理 - SLA治理 - 数据
公司:北京快手 面试时间:2024.07.04,共计55分钟 问题 自我介绍 Java中Map在内存中的存储结构,如何存储数据? HashMap的底层数据结构是什么? 介绍一下ArrayList? int a1[4096]; Integer a2[4096]; 两个数组求和哪个更快? 对连续内存的数据做计算,CPU会有哪些加速设计? Java中创建对象返回的引用地址和物理内存条中的地址有什么关系?
公司:广州网易互娱 面试时间:2024.07.23,共计65分钟 共两位技术面试官,轮流提问 流程:自我介绍、项目、基础知识(Java基础方面、数据库方面、计算机基础方面(操作系统)、计算机网络方面)、算法笔试。 问题 自我介绍 项目方面 成本治理中负责的工作内容 数据平台中,任务计算成本的计费维度 Spark作业从哪些方面可以发现能够优化? Spark作业可以从哪些方面进行优化? 从哪些配置入手
25、MR工作原理 Input Spliting:输入的数据被拆分成更小数据块(Input Splits:将大文件切割成适合并行处理的小块数据,每个小块数据称为一个分片,一个分片作为MR处理的基本单元)Mapping:mapper节点将分配到数据块执行map操作,产生中间结果(k,v)键值对并写入到本地磁盘Shuffling and Sorting:Mapper节点会根据Key进行排序,并将相同K
主要问经历,问项目的比较多 hdfs的角色有哪些,功能 hdfs的写流程 Java的线程安全是什么 最熟悉的集合是什么?详细描述一下 Arraylist为什么长度可变 python的装饰器用过没?是什么东西? 手撕python编程题,给定一段字符串,统计出每个单词的频率,频率相同的按降序排序 外部表和内部表的区别? 为什么选择多益? 对游戏的流失人数进行分析? 有没有拿到其他公司的OFFER
#百度#面试官很好,总体感觉问的比较简单,但是好久不看八股感觉很多都忘记...理解还是比较浅层,一些实战方面的内容还比较欠缺...要努力了!!!
9.7做的笔试,9.10武汉地区线下面试 总共三十分钟左右,面试官技术很强,人也很nice 体验很好。 主要拷打的项目和八股,问得很底层,感觉八股答的不好应该是寄了 自我介绍; 问了实习,主要做的工作内容; 项目架构,数据流,涉及到的组件,为什么选择,不同源的数据怎么汇总,项目的数据量是多少; flink的check point机制,存储位置; kafka的架构,用了多少个节点; Hbase的结构
1.自我介绍 2.实习技术难点 3.项目技术难点 4.id timestamp 位置 三个字段完全一样的去重,sql怎么做scala怎么做 挑选同个人最后一个时间戳的记录,sql怎么做scala怎么做 5.spark submit提交参数 6.内存/并行度参数优化方案和技巧 7.当出现数据倾斜的时候怎么排查,怎么处理 不能只提八股,要完善分情况的答 8.两数之和 9.小数之和 10.反问,写sca
介绍项目,聊项目 哈希场景 spring Bean创建流程 spring事务注解,参数 平常中碰到过的事务问题,使用什么解决事务问题 求两个有序数组中不重复元素的个数
本文向大家介绍Python数据分析之如何利用pandas查询数据示例代码,包括了Python数据分析之如何利用pandas查询数据示例代码的使用技巧和注意事项,需要的朋友参考一下 前言 在数据分析领域,最热门的莫过于Python和R语言,本文将详细给大家介绍关于Python利用pandas查询数据的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧。 示例代码 这里的查询数据
我有1000个文本文件。每个都有日期(我做了索引)和股票价格(列0)。我已经创建了代码来查找单个文件的价格的移动平均线,以及价格和移动平均线之间的滚动差异。我想为每个文件创建这样的代码。我必须在组中上传它们,因为它需要太多的内存来一次性上传它们。 我想我必须使用for循环来遍历文件并找到每个文件的度量。但我该怎么做呢?我如何将所有文件上传到一个组中,然后将它们分组到一个变量中,然后创建一个循环来查
我有两个不同列数和行数的CSV文件。第一个CSV文件有M列和N行,第二个文件有H列和G行。一些列具有相同的名称。 null 另外,如果两个CSV文件有两个数据帧,并希望这样做,例如,如果我将第一个CSV加载到中,将第二个加载到中,然后希望合并到,类似于上面的示例。