SmileMiner 是一个包含各种现有的机器学习算法的 Java 库。主要组件包括:
mile 机器学习的核心库
SmileMath 数学函数、排序、随机数生成器、最优化、线性代数、统计分布、假设检验
SmileData Parsers for arff, libsvm, delimited text, sparse matrix, microarray gene expression data.
SmileGraph 邻接表和矩阵图算法
SmileInterpolation 一维和二维插值
SmileNLP Natural Language Processing.
SmilePlot 基于Swing的可视化库
Index 基本遵从《统计学习方法》一书中的符号表示。 除特别说明,默认w为行向量,x为列向量,以避免在wx 中使用转置符号;但有些公式为了更清晰区分向量与标量,依然会使用^T的上标,注意区分。 输入实例x的特征向量记为: 注意:x_i 和 x^(i) 含义不同,前者表示训练集中第 i 个实例,后者表示特征向量中的第 i 个分量;因此,通常记训练集为: 特征向量用小n表示维数,训练集用大N表示个数
问题答案可关注公众号 机器学习算法面试,回复“资料”即可领取啦~~ 1.机器学习理论 1.1 数学知识 1.1.1 机器学习中的距离和相似度度量方式有哪些? 1.1.2 马氏距离比欧式距离的异同点? 1.1.3 张量与矩阵的区别? 1.1.4 如何判断矩阵为正定? 1.1.5 距离的严格定义? 1.1.6 参考 1.2 学习理论 1.2.1 什么是表示学习? 1.2.2 什么是端到端学习? 1.2
感知机可以理解为几何中的线性方程:w*x+b=0 对应于特征空间 R^n 中的一个超平面 S ,其中 w 是超平面法向量,b 是超平面的截距。这个超平面将特征空间划分为两个部分。位于两部分的点(特征向量)分别被分为正、负两类。
本教程将全面介绍深度学习从模型构造到模型训练的方方面面,以及它们在计算机视觉和自然语言处理中的应用。
二面挂 总时长1.5h,面试45min,剩下时间手撕 面试大概问题: 1.讲数据挖掘比赛的过程 2.连续字段怎么转换为离散字段 3.讲一个困难的经历是如何解决并分工的 4.讲一个自己熟悉的网络框架 5.L1正则和L2正则 6.多模态数据怎么利用,模型怎么设计 其他的记不清了 反问环节: 1.部门做什么的 2.用的主要方法是什么 手撕代码,两问: 1.给定函数f(x) = 1.2 x^2 - 0.8
前言: 岗位:机器学习算法实习 笔试情况:无笔试 一面 1.自我介绍(非科班硕,一份水实习); 2.介绍项目,并由此引出一系列八股文: 介绍gbdt算法的原理与实现 说说xgboost对于gbdt所做的主要优化 3.介绍实习工作 简单介绍resnet及其主要改进(shortcut连接,BN层),说说这些改进为什么work 介绍transformer及self-attention机制实现方式 了解哪
时长:1h 1.自我介绍 2.选了个实习深挖,这部分问了蛮多的,从流程到实现,每部分的输入输出等等 3.根据我的研究方向,问了一些经典的算法和最新的一些前沿成果(这部分拉了坨大的,面试官说我说的那些东西在他上学那会就有了) 4.注意力机制的计算公式?为什么除以根号dk? 5.了解推荐模型嘛?知道哪些模型? 6.手撕:和为k的连续子数组(面试官口述的问题,一开始理解成输出数量,结果是要输出所有的数组
感知机学习问题转化为求解损失函数的最优化问题,最优化的方法就是随机梯度下降法。 1. 学习算法的原始形式 给定一个训练数据集$$T={(x{(1)},y{(1)}),(x{(2)},y{(2)}),...,(x{(m)},y{(m)})}$$,其中,$$x{(i)}in X= Rn$$,$$y^{(i)}in Y=lbrace+1,-1rbrace$$,$$i=1,2,...,m$$,求参数$$w