分治和回溯其实本质上就是递归,只不过它是递归的其中一个细分类。可以认为 分治和回溯 最后就是 一种特殊的递归 或者是较为复杂的递归即可。 分治算法,即分而治之(divide and conquer,D&C),把 一个复杂问题 分成 两个或更多 的相同或相似 子问题,直到最后子问题可以简单地直接求解,最后将子问题的解合并为原问题的解。 分治法的核心思想就是,将原问题分解成小问题来求解,只要遵循三个步
在介绍softmax回归的实现前我们先引入一个多类图像分类数据集。它将在后面的章节中被多次使用,以方便我们观察比较算法之间在模型精度和计算效率上的区别。图像分类数据集中最常用的是手写数字识别数据集MNIST [1]。但大部分模型在MNIST上的分类精度都超过了95%。为了更直观地观察算法之间的差异,我们将使用一个图像内容更加复杂的数据集Fashion-MNIST [2]。 获取数据集 首先导入本节
在前面的章节中,我们学习了散点图,hexbin图和kde图,用于分析研究中的连续变量。 当研究中的变量是分类时,这些图不适合。 当研究中的一个或两个变量是分类时,我们使用像striplot(),swarmplot()等那样的图。 Seaborn提供了这样做的界面。 分类散点图 在本节中,我们将了解分类散点图。 stripplot() 当研究中的一个变量是分类时,使用stripplot()。 它表示
在处理一组数据时,您通常想做的第一件事就是了解变量的分布情况。本教程的这一章将简要介绍seaborn中用于检查单变量和双变量分布的一些工具。 您可能还需要查看[categorical.html](categorical.html #categical-tutorial)章节中的函数示例,这些函数可以轻松地比较变量在其他变量级别上的分布。 import seaborn as sns import m
数据分类 对一个数据a进行分类,分类方法为:此数据a(四个字节大小)的四个字节相加对一个给定的值b取模,如果得到的结果小于一个给定的值c,则数据a为有效类型,其类型为取模的值;如果得到的结果大于或者等于c,则数据a为无效类型。 比如一个数据a=0x01010101,b=3,按照分类方法计算(0x01+0x01+0x01+0x01)%3=1,所以如果c=2,则此a为有效类型,其类型为1,如果c=1,
监督学习使用标记数据对 (x,y) 学习函数:X\rightarrow Y 。但是,如果我们没有标签呢?这类没有标签的学习方式被称为无监督学习。 无监督学习:如果训练样本全部无标签,则是无监督学习。例如聚类算法,就是根据样本间的相似性对样本集进行聚类试图使类内差距最小化,类间差距最大化。 主要用途: 自动组织数据。 理解某些数据中的隐藏结构。 在低维空间中表示高维数据。
一共两轮技术面一轮HR面,第一轮面试hive 问题居多,第二轮hadoop 问题居多,整体来说问题不是很难,方向为数仓。 一面: 11.30下午 牛客网面试 30min 自我介绍 数仓项目介绍 什么是全量表,什么是增量表,以及应用的场景 了不了解拉链表,讲一下拉链表如何生成 什么是内部表,什么是外部表,有什么区别 Hive中小文件形成的原因及解决办法 Hive SQL的优化方法 讲一下熟悉的窗口函
1.Spark的运行机制 2.union是宽依赖还是窄依赖 3.常见的action算子 4.reduceByKey和groupByKey的区别 5.Spark的checkpoint 6.Spark的cache和persist区别 7.Flink的checkpoint和Spark的checkpoint区别 8.Flink的两阶段提交问题 反问 用什么做什么 基本大数据组件都会用,shein数据量大而
时间线:周五上午投的简历,中午就接到得物HR的电话,简单确认了一下信息之后,约了下午6点面试 面试 1.自我介绍 2.数据运营和业务之间的关系是什么? 3.面试官针对简历上符合要求的点进行深入提问。 比如我的简历上有一段关于大数据项目的经历,主要利用Python爬虫,并用Numpy、Pandas库进行数据处理和分析。面试官对这段经历很感兴趣,明确告诉我这就是她需要的能力,她需要我对数据进行分析,最
由于已经离职了,就发一下面经把 一面 自我介绍 项目 数仓怎么分层 数据倾斜怎么处理 join优化 实时数仓和离线数仓的定位 能实习多久 反问 数据量多少进去干什么工作对我的建议 进去主要负责什么 二面 说一下MR的执行流程 内部表和外部表的区别 其他记不太清了,主要是一些基本的数仓八股文
一面 聊项目 2道sql lead/lag函数 like pandas基础 数据倾斜问题 二面 聊项目 表连接方式 数仓各层作用 数仓建模类型有哪些 维度模型有哪几种 sql执行计划 mr过程 数学建模怎么分工 为什么不读研 数据中台产品了解哪些 已oc #面经#
是脉脉这个公司的面试,不是脉脉上投的公司的面试。 虽然没想去,但我感觉也没资格去 面试官一直在说不做评价,不做评价,懂我意思吧。 问了java、jvm、scala偏函数 大数据问了kafka选举流程;yarn调度器;zk。哪不熟问哪,反其道而行。 偏底层组件开发,我可能偏数仓吧,技术力还没到这个程度。问的有点怀疑人生 面试官结束直接告诉我今天到这了,我说问问题呢问问题,他说理论上实习生没有提问环节
👥 面试题目 美团数据运营实习生面经(已offer): 这个实习是在实习僧上投递的,前面一直在忙校招等等的 这个面试当时面完没写笔记,现在凭回忆写写吧 1.自我介绍 2.面试官介绍自己部门的业务情况(优选-零售) 3.一句话概括自己的优势 4.我对零售业务的理解?是不是自己想做的? 5.讲一个自己做过的数分的案例 6.确认了一下到岗时间,可实习时长这些 7.SQL掌握情况如何 这轮面试是电话面试
1. 维度建模和范式建模是什么,两者之间比较大的区别。 2. 为什么说维度建模可以故意引入数据冗余,而范式建模要避免数据冗余,它们这样做的目的是什么? 3. 两道Sql题。 order_info ( order_id bigint, -- 订单id city_name string, -- 城市名 driver_id bigint, -- 司机id passenger_id bigint, --
1. 自我介绍 2. 讲解一下项目 3. 项目中数仓为什么要这样分层。 4. 关于数模比赛项目的问题。xxx 5. 写sql题。 用户访问日志:user_id, device_id, date 求1. 给定时间2024-06-17 用户、设备的数量,都有重复值,都有可能为空 第一次写法: select count(distinct user_id) user_cnt count(distinct