简历没写算法和机器学习的东西,就只是方向是这个,然后面试的时候机器学习问好多?真的是有点懵 一面问nlp,二面问我会不会协同过滤,明明招数仓,数仓东西又不问,真的是服 8.29 一面 全程 30min不到 自我介绍 数仓的优势 介绍下数据库的范式 介绍项目中的Flume 常用的语言有哪些?Java和Scala的区别?什么是范式编程? 设计模式了解多少? ETL步骤 常用的机器学习算法?随机森林主
40min 面试官问的很细,来自数据平台,技术感觉很强很全面。 warm-up 自我介绍 有其他意向吗?能来北京吗 挑一个做得好的项目介绍下全流程 难点在哪,讲一下 ElasticSearch ES有用到集群吗?有设置分片吗?有设置副本吗?副本数是多少? 你是怎么建立索引的?为什么这么建立索引? Hive 离线处理有用过Spark 吗?没有,主要用的是Hive 说一下Hive 构造UDF 的过程?
全程面试一个小时,先聊实习,再聊数据结构和操作系统八股文,中间给了一道设计数据库缓存的情景题,最后出了一道实现双向链表插入、查找、删除的算法题。整体感觉面试难度适中,面试官很有耐心也很温柔,面试体验不错。 实习经历 (1) 研究生期间做深度学习,为什么就业想要走开发岗? (2) 现在的实习才四个多月,为什么想要换一份实习? (3) 项目各种技术细节如何实现的(不展开说了) (4) 对你来说最有成就
开局自我介绍,然后问我两段实习经历,分别做了什么?照实回答,问我有没有接触过BI工具,我说是内部封装好的;日常工作,处理的数仓规模,人员规模,主要负责内容,处理的数据的大小。之后让我写一道题目,求连续三天消费金额大于100的用户ID,不想用排序函数再写了所以用了LAG函数来写,面试官给了我一个不置可否的表情(坏了可能写错了......)然后说我明白你的思路了,我解释说因为不想用排序函数来写所以尝试
投递岗位:大数据开发工程师(广州) 时间线:9.5投递,9.13技术一面,9.17技术+hr二面,9.19测评,10.7 意向 JD如下,岗位偏数据平台建设,非数仓 面经 技术 自我介绍 项目中最大的收获是什么,数据治理讲一下 hive分区表怎么创建(具体到关键字),分区的好处,怎么设计分区 hive分桶表怎么创建(具体到关键字),分桶的好处 hive外部表建表语句 (具体到关键字) hive s
#非技术2024笔面经# 二面1117 1.业务介绍 2.个人介绍-3min 3.有效线索定义 4.考量的核心指标 5.转化率,哪个层级流失率最大 6.会不会考虑其他商业模式进行转化 7.是否涉及产品方案 反问: 1.工作模式 2.培养方案 3.看重应届生的能力(学习能力、抗压能力、正确的野心) 三面1124 1.个人介绍 2.第一段实习最大的挑战 3.对挑战的解决策略 4.职业规划 反问: 1.
1.自我介绍 2.一周能实习多少天 3.是否考研,为什么不考 4.linux基本操作 5.手撕SQL,没答上来。请求提示,有个函数没听说过。 6.在学习的时候哪里用到了SQL 7.MySQLDDL是否了解(太紧张突然想不起来DDL是啥了,就说了没有。。),结束那一刻我才反应过来,麻中麻。。 8.反问环节 hr挺和蔼的。但是我实在又紧张又菜。。估计是凉了。 过两天还有百度的面试,更是重量级,看到自己
问题内容: 我已经定义了一个Java数组,例如 我想在代码中进一步做这样的事情: 但这给了我一个编译错误。是否有一次更好的方法来一次定义多个值,而不是这样做? 谢谢! 问题答案: 是: 仅 在初始化程序中允许使用此语法。您不能在作业中使用它,以下是最佳做法: 要么 试图在语言规范中找到对此的参考,但是它像以往一样难以理解。其他人找到一个吗?
问题内容: 我试图识别/创建一个函数(在Java中),该函数给我一个非均匀的分布式数字序列。如果我有一个函数说它将给我一个从到的随机数。 该函数最适合任何给定的函数,下面仅是我想要的示例。 但是,如果我们说函数将返回来自分布式的s nonuni。 我想例如说 约占所有案件的20%。 大约是所有情况的50%。 约占所有案件的20%。 大约是所有情况的10。 总之somting,给我一个数字,如正态分
问题内容: 假设我有一个如下所示的Javascript数组: 什么方法适合将数组分块(拆分)为更小的数组,最多可以有10个元素? 问题答案: 该array.slice方法可以从一开始,中间,或自己需要的任何目的数组的结束提取切片,在不改变原来的数组。
本文向大家介绍Python urlopen()函数 示例分享,包括了Python urlopen()函数 示例分享的使用技巧和注意事项,需要的朋友参考一下 好了,废话少说,我们先看看几个示例吧 一、打开一个网页获取所有的内容 二、获取Http头 三、使用代理 1. 查看环境变量 2. 设置环境变量 3. 使用代理
问题内容: 假设我有一个功能 现在,我想将函数分配给一个名为的变量,这样,如果我使用,它将再次调用该函数。如果我只是做作业,它就会返回。 问题答案: 您根本不调用该函数。 括号告诉蟒蛇,你调用的函数,所以当你把它们放在那里,它调用的功能,并指定值 返回 的(在这种情况下)。
我有一个包括客户篮子的数据集。我想用一个来分割每个用户篮。因此,我有一个列表,其中我应该使用一个循环来获得一个,以便在pandas矢量化中使用它,如下所示: 我使用函数而不是,但它确实很慢。 根据我的orders列表,它包括百万个元素,我应该使用orders列表的元素来获取用户的篮子。 实际上,我想通过来分割每个用户的篮子,而要这样做,我需要对大小为4000000的orders列表进行迭代,所以这
我想写一个程序,从用户那里取一个英尺数和一个英寸数,如下所示,然后把这两个数转换成米,然后用两个整数和小数显示得到的数。小数部分应以厘米为单位 我的程序应该和这个例子一模一样: 输入:3英尺5英寸 输出:1米4.1400厘米
来源:谷歌面试问题 编写一个例程,以确保输入中的相同元素在输出中的分布最大? 基本上,我们需要以这样一种方式放置相同的元素,使总传播尽可能最大化。 示例: 我一点也不确定,是否有一个最佳多项式时间算法可用于此。此外,除此之外,没有为问题提供其他细节。 我的想法是,计算输入中每个元素的频率,然后将它们排列在输出中,每次排列每个不同的元素,直到所有频率都用完。 我不确定我的方法。 任何方法/想法的人。