监督学习使用标记数据对 (x,y) 学习函数:X\rightarrow Y 。但是,如果我们没有标签呢?这类没有标签的学习方式被称为无监督学习。 无监督学习:如果训练样本全部无标签,则是无监督学习。例如聚类算法,就是根据样本间的相似性对样本集进行聚类试图使类内差距最小化,类间差距最大化。 主要用途: 自动组织数据。 理解某些数据中的隐藏结构。 在低维空间中表示高维数据。
迭代与梯度下降求解 求导解法在复杂实际问题中很难计算。迭代法通过从一个初始估计出发寻找一系列近似解来解决优化问题。其基本形式如下
对于给定训练集 {D}' ,我们希望基于学习算法 L 学得的模型所对应的假设 h 尽可能接近目标概念 c。 为什么不是希望精确地学到目标概念c呢?因为机器学习过程受到很多因素的制约: 获得训练结果集 {D}' 往往仅包含有限数量的样例,因此通常会存在一些在 {D}' 上“等效”的假设,学习算法无法区别这些假设。 从分布 D 采样得到的 {D}' 的过程有一定偶然性,即便对同样大小的不同训练集,学得结果也可能有所不同。
主成分分析是一种降维方法,通过将一个大的特征集转换成一个较小的特征集,这个特征集仍然包含了原始数据中的大部分信息,从而降低了原始数据的维数。换句话说就是减少数据集的特征数量,同时尽可能地保留信息。降维是将训练数据中的样本(实例)从高维空间转换到低维空间,该过程与信息论中有损压缩概念密切相关。同时要明白的,不存在完全无损的降维。
机器学习即Machine Learning,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。目的是让计算机模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断完善自身的性能。简单来讲,机器学习就是人们通过提供大量的相关数据来训练机器。
欧氏距离 也称欧几里得距离,是指在m维空间中两个点之间的真实距离。欧式距离在ML中使用的范围比较广,也比较通用,就比如说利用k-Means对二维平面内的数据点进行聚类,对魔都房价的聚类分析(price/m^2 与平均房价)等。 两个n维向量a($$x_{11},x_{12}.....x_{1n}$$)与 b($$x_{21},x_{22}.....x_{2n}$$)间的欧氏距离 python 实现
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。
主要作者:@徐英凯|闪银机器学习工程师 审校顾问:@卢誉声|Autodesk 软件研发工程师、@高扬|欢聚时代资深大数据技术专家、@罗远飞|第四范式机器学习工程师 Toolbox C/C++ Vowpal Wabbit MultiBoost Shogun Java Mahout Weka Mallet JSAT Python Scikit-learn PyBrain nltk Theano Pyl
什么是机器学习? 机器学习是自动从数据中提取知识的过程,通常是为了预测新的,看不见的数据。一个典型的例子是垃圾邮件过滤器,用户将传入的邮件标记为垃圾邮件或非垃圾邮件。然后,机器学习算法从数据“学习”预测模型,数据区分垃圾邮件和普通电子邮件。该模型可以预测新电子邮件是否是垃圾邮件。 机器学习的核心是根据数据来自动化决策的概念,无需用户指定如何做出此决策的明确规则。 对于电子邮件,用户不提供垃圾邮件的
提前批 过去有点久了,可能有些回忆不准确了 百度机器学习一面 (电话,很简短) 询问想做的方向 问了LSTM GRU的结构和区别 Attention 原理 Bert 原理 对做NLP怎么看 百度机器学习二面 过项目,问项目涉及到的机器学习算法 概率题 贝叶斯相关 手撕算法 二分查找 先写无重复的 再写有重复找第一个 百度机器学习三面 证明根号二是无理数 用梯度渐近法求根号2 用牛顿法求根号2 手撕
30分钟 自我介绍 项目拷打 Kmeans与Kmeans++的区别 Kmeans一定会收敛吗(EM算法来证明) LightGBM比XGBoost的最大提升在于直方图加速,请详细介绍一下原理和过程 为什么sigmoid、tanh和relu能被用作激活函数 神经网络梯度爆炸问题怎么解决 无手撕题
#24届软开秋招面试经验大赏# 认准拉普拉斯,秋招必上岸 就业咨xun可私。 荣耀的面试体验真的很不错,面试官都是用“您”提问。而且面试过程也挺像唠嗑,还是很舒服的。 之前听说荣耀要变成国企,还有说要单独上市的,也不知道谁说得对。 整体来看,面试难度不高,而且今年好像给的很大方。 面了半小时,难度两颗星。 1 自我介绍 2 实习介绍 项目介绍 科研介绍 3 讲一下科研,挺感兴趣这个东西 4 说一下
#24届软开秋招面试经验大赏# 认准拉普拉斯,秋招必上岸 就业zixun可私。 荣耀一共就两轮面试,而且也没考coding。每轮都是半小时左右。去面试间等着叫号,还是体验挺好的。 出结果也挺快的,不像华子那么能泡。 二面应该是主管面了。 面试时间半小时,难度一颗星。 1 自我介绍 2 实习介绍 项目介绍 科研介绍 3 平时喜欢看哪方面的论文,分享一个。 4 看我实习挺多,方向是怎么选的,有没有什么
一面 3.21 问项目:问了一个项目,问的非常详细,大概问了30min 然后问基础: transformer的架构 为什么使用multi-head、残差链接和前馈神经网络层 梯度消失的原因是什么 gpt和t5的区别 bert和t5的区别 了解现有的大模型,比如LLaMa这些吗 代码:删除链表倒数第k个节点,需要考虑到k>链表长度这个边界情形
10点到3点半,中间停了一个半小时,面完人都傻了,真遭不住...... 一面 基本就围绕实验室项目聊了好久,中间穿插问了几个强化学习算法原理 然后问了深度学习和pytorch 几个简单的点 手撕:一个数组,对每个数可以给+ 或者-号,问有多少种情况可以和为target 二面 基本也是就围绕实验室项目聊了好久 然后再聊了好久Tcmalloc 手撕:一个无序数组,然后把它变成a <= b >= c <