面试高频题1: 题目:介绍一下k-means,你的数据如何处理,模型的输出是什么? 答案解析: 介绍kmeans: 第一步:数据归一化、离群点处理后,随机选择k个聚类质心 第二步:所有数据点关联划分到离自己最近的质心,形成k个簇; 第三步:重新计算每个簇的质心; 重复第二步、第三步,直到簇不发生变化或达到最大迭代次数; 数据如何处理: 为了防止均值和方差大的维度将对数据的聚类产生决定性影响,所以在
面试高频题1: 题目:了解决策树吗 答案解析: 决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和C5.0等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。 决策树的构造过程: 决策树的构造过程一般分为3个部分,分别是特征选择、决策树生产和决策树裁剪。 (1)特征选择: 特征选择表示从众多的特征中选择一个
面试高频题11: 题目:L1、L2的原理?两者区别? 答案解析: 原理: L1正则是基于L1范数和项,即参数的绝对值和参数的积项;L2正则是基于L2范数,即在目标函数后面加上参数的平方和与参数的积项。 区别: 1.鲁棒性:L1对异常点不敏感,L2对异常点有放大效果。 2.稳定性:对于新数据的调整,L1变动很大,L2整体变动不大。 答案解析 数据分析只需要简单知道原理和区别就行,公式推导不需要,面试
面试高频题1: 题目:统计学的基本方法论,也就是拿到数据怎么分析 答案解析: 统计学是一门综合性的学科,会通过收集、处理、分析、描述等一系列步骤从数据中得出结论。以下分别介绍包括描述统计和推断统计在内的统计学的基本方法论,以这两种方法论为分析主线能够较为全面地对数据进行分析。 1) 描述统计 描述统计通过图表或数学方法,对样本数据进行整理、分析,然后概括总结出反映客观现象的规律。其中图表描述方法就
面试高频题11: 题目:辛普森悖论,以及如何避免这种现象 答案解析: ⾟普森悖论指在某个条件下的两组数据,分别讨论时都会满⾜某种性质,可是⼀旦合并考虑却可能导致相反的结论。为了避免⾟普森悖论导致我们得出两个相反的结论,我们需要选择将数据分组或将 它们聚合在⼀起。其中我们要学会思考因果关系:数据如何⽣成,基于此,哪些因素会影响我们未展示的结果? 例如美国加州大学研究生录取数据的分析中,目的是探究伯利
面试高频题1: 题目:处理噪声数据方法 答案解析: 1、分箱 分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术
第一次结构化面试,打得我措手不及…… 岗位:数据建模岗 base:北京 1. 给你一段材料,让你讲讲自己的想法 2. 完成一个项目,怎么跟同事合作 3. 用什么方法说服领导,推进项目落地 4. 怎么学习新知识 5. 感兴趣的新技术 6. 代码能力 大概是这些题目,我全程晕晕乎乎的,结构化面试真的容易暴露我的语无伦次 #中国人民保险##面经#
1、自我介绍 2、MR的执行过程,用了几次排序,Reduce怎么知道拉取哪些数据 3、RDD的底层实现(Spark用的不多就没问了) 4、项目介绍(没有针对项目进行提问) 5、SQL优化思路,具体讲了关于数据倾斜这块 6、SQL题:包含班级、学生、课程、分数的表,查询每个班每门课前三的学生 7、SQL题:包含user_id和target_id的表,找到互相关注的用户,优化不用join实现 8、SQ
交行 金融科技储备生_数据分析 面试官两人,一个组同时把4人拉进面试间。每个人轮流发言。问题就两个:自我介绍,以及做过的项目 神仙打架,一堆有实习经历的大佬,还做了一堆牛逼的项目,呆过各种牛逼的实验室 总的来说,我这个没实习的跨专业小辣鸡,没有丝毫的竞争优势 #交通银行##交通银行面试#
1、自我介绍 2、为什么要去北京 3、MR的原理 4、为什么环形缓冲区到80%之后才反向溢写 5、SQL中哪些函数走MR,max走不走 6、select a,count(distinct b) from table group by a,MR的流程 7、SQL优化,如果给你两张表,用户视频表和用户粉丝表,怎么处理数据倾斜 8、SQL题:每个用户都有5门成绩,总计6列。请生成两列,其中1列是用户ID
1101 - 技术面 自我介绍 实习经历 K8S: K8S 和 Spring Cloud 了解 如何基于 K8S 部署服务 K8S 部署服务的流程 基于 Spring 开发过的个人项目,是课程吗 对巨杉了解 算法 1103 - HR 面 自我介绍 校园经历 实习经历 Offer: 手头 Offer 及薪资待遇,偏向程度 期望薪资 相同薪资的 Offer 如何选择 个人优势 反问 #面经##校招##
#数据人的面试交流地# 1.首先自我介绍,一定要加上自己会啥,自己的优势一定要多说出来 2.简历上写的项目一定要自己做的,如果是网上抄的一定要弄懂才能写出来,要不然容易出现问题 3.写自己的技能一定要写自己弄的比较懂的 4.再来说一下我对大数据的理解,大数据讲究计算和存储,对于存储一定要懂hdfs,hive等等技术,对于计算我建议一定要会spark,flink也要会,你可以不用但要会,spark说
#数据人的面试交流地#闲言少叙,书归正文。今天来聊一聊数据的面经。我投的岗位主要是以数据为核心的岗位,数据分析、数据开发,还有一些基于数据分析的游戏用户分析等岗位。除此之外还有些AI相关的岗位,但与我们今天的数据主题不太相符,故暂按下不表。 在这里先分享一下我的面试思路,不一定对,只是个人观点。如有不妥之处,欢迎诸位看官在评论区批评指正,共同学习进步。 首先,我们明确一点,我们面的是数据相关岗位,
下午两点半面的,用的腾讯会议。 一个hr加两个技术面试官。 先让我做了自我介绍。 问了我坦克大战小项目的具体内容。 问了数据库的索引怎么写,怎么实现的,如何防止sql注入。 问了好多锁的内容,我说不太了解。 问了JVM,说没怎么学过。 问了有没有自己实现所有的数据结构,没有。 问了socket套接字,在服务端的代码怎么写的,我说记不清了。 反问环节,问了新员工的培养机制。#23届秋招[话题]##金
字节数据分析实习面试(抖音电商) 一面: 表user_log,有user_id, time,求每天用户新增数,次日留存率、30日留存率 ABTest的流程,P值,做留存率的ABTest,选择什么检验,卡方检验的应用场景 逻辑回归的损失函数 出现过拟合的原因 三天后给了感谢信 快手数据分析师(短视频用户增长部门) 一面: 两个SQL题目,都还比较简单,主要涉及到group by和日期函数的处理,还有