我的挑战是我不能使用随机森林的可变重要性特性,因为我的大多数特性都与它们最近的过去有高度的相关性。例如,一个移动平均数跨越了一个几天的窗口,这意味着它包含了我的数据集中的多个观察的信息。 这意味着随机森林生成的袋外样本将与随机森林用来训练我的模型的样本内特征相关联。因此,我从中得到的变量重要性将是高度乐观和过度适应的。 我看到的解决方案是以某种方式计算样本外测试集上的变量重要性,而不是使用OOB交
4月12日(一面 50min) 个人项目30min C++新特性,左值右值,智能指针 堆和栈的区别 死锁原因和必要条件以及死锁的解除方式 4月18(二面1个半小时) 编程题一:数组内连续子数组大于指定数的个数 编程题二:滑动窗口的众数滤波器。 unordered map和map的区别以及其实现原理 C++打印vector的方式。(因为我编程时用到了这些内容,就问了这些) 动态链接和静态链接的区别
本人信息:211/23届,英语+会计双学位,三段实习(运营、产品相关)+一段快消品项目经历 时间进度:1.12投递,过一天就接到筛简历的电话;但是之后一周没什么音讯,我以为没过也没有很在意,当时也在面百度、字节、快手、作业帮、蓝标的实习。然后过了个年,1.28终于接到了hr的电话问我还在找实习吗,说简历初筛过了,约了第二天的面试。 一面:业务负责人面(后来发现是主要带我的小姐姐) 1、挖简历上的实
趁着我还有记忆写个面经……是做行为分析的组 HR面:半小时+ 了解基本情况和对自动驾驶的了解 一面:一小时 询问对自动驾驶的了解 介绍简历上的项目 场景题,某个具体场景下设计决策逻辑 二面:一小时 介绍简历项目,问了一些项目的实现细节 也是场景题,比一面问的仔细一些 最后问了一些简单的数学基础,很多基础知识一时半会儿真想不起来……😭😭😭 三面:两小时 传说中的NY面……原来产品也得他面啊……
泰森多边形是荷兰气候学家 A.H.Thiessen 提出的一种根据离散分布的气象站的降雨量来计算平均降雨量的方法,即将所有相邻气象站连成三角形,作这些三角形各边的垂直平分线,于是每个气象站周围的若干垂直平分线便围成一个多边形。用这个多边形内所包含的一个唯一气象站的降雨强度来表示这个多边形区域内的降雨强度,并称这个多边形为泰森多边形。泰森多边形又称为 Voronoi 图,是由一组连接两邻点直线的垂直
随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是它可以很方便的并行训练,在如今大数据大样本的的时代很有诱惑力。 1. bagging的原理 在集成学习原理小结中,我们给Bagging画了下面一张原理图。 从上图可以看出,Bagging的弱学习器之间的确没有boosting那样的联系。它的特点在“随机采样”。那么什么是随机采样? 随机采样(bootsrap)就是从我们的训练集里面采
假设你去随机问很多人一个很复杂的问题,然后把它们的答案合并起来。通常情况下你会发现这个合并的答案比一个专家的答案要好。这就叫做群体智慧。同样的,如果你合并了一组分类器的预测(像分类或者回归),你也会得到一个比单一分类器更好的预测结果。这一组分类器就叫做集成;因此,这个技术就叫做集成学习,一个集成学习算法就叫做集成方法。 例如,你可以训练一组决策树分类器,每一个都在一个随机的训练集上。为了去做预测,
假设你去随机问很多人一个很复杂的问题,然后把它们的答案合并起来。通常情况下你会发现这个合并的答案比一个专家的答案要好。这就叫做群体智慧。同样的,如果你合并了一组分类器的预测(像分类或者回归),你也会得到一个比单一分类器更好的预测结果。这一组分类器就叫做集成;因此,这个技术就叫做集成学习,一个集成学习算法就叫做集成方法。 例如,你可以训练一组决策树分类器,每一个都在一个随机的训练集上。为了去做预测,
集成方法: ensemble method(元算法:meta algorithm) 概述 概念:是对其他算法进行组合的一种形式。 通俗来说: 当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见。 机器学习处理问题时又何尝不是如此? 这就是集成方法背后的思想。 集成方法: 投票选举(bagging: 自举汇聚法 bootstrap aggregating): 是基于数据随机重抽样分类器
Voronoi布局对于无形的交互地区尤其有用,在Nate Vack’s Voronoi picking例子中被证实,看Tovi Grossman’s关于 bubble cursors的论文,以了解相关内容。 Voronoi picking:http://bl.ocks.org/njvack/1405439 d3.geom.() 创建一个带默认访问器的Voronoi布局。 voronoi(data)
在随机森林方法中,创建了大量决策树。 每个观察都被送入每个决策树。 每次观察的最常见结果用作最终输出。 一个新的观察结果被输入所有树木,并对每个分类模型进行多数投票。 对构建树时未使用的情况进行错误估计。 这称为OOB (Out-of-bag)错误估计,以百分比形式提及。 R包"randomForest"用于创建随机森林。 安装R包 在R控制台中使用以下命令安装程序包。 您还必须安装依赖包(如果有
互联网是为了通信,通信又依赖于协议。我们交谈时,要符合语法和用语规范。机器之间的通话也要符合协议。否则,鸡同鸭讲,无法相互理解。“协议森林”是我的一系列关于网络协议的文章,总结了多个网络协议。 网络协议属于技术,但深受政策与历史的影响。Ethernet, IP, UDP, TCP, HTTP, DNS... 这些协议形成茂密的树林,盘根错节。协议之间有时合作,有时竞争,有时弱肉强食的取代。了解网络
参考文献:http://www.zilhua.com/629.html http://www.tuicool.com/articles/JvMJve http://blog.sina.com.cn/s/blog_573085f70101ivj5.html 我的数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm 我的算法库:https://g
IPv4由于最初的设计原因,长度只有32位,所以只提供了大约40亿个地址。这造成了IPv4地址的耗尽危机。随后,IPv6被设计出来,并可以提供足够多的IP地址。但是IPv4与IPv6并不兼容,IPv4向IPv6的迁移并不容易。一些技术,比如说这里要说的CIDR和NAT,相继推广。这些技术可以缓解IPv4的稀缺状态,成就了IPv4一时的逆袭。 CIDR CIDR(Classless Inter Do
TLS名为传输层安全协议(Transport Layer Security Protocol),这个协议是一套加密的通信协议。它的前身是SSL协议(安全套接层协议,Secure Sockets Layer)。这两个协议的工作方式类似,但TLS协议针对SSL协议进行了一些改善。SSL/TLS协议利用加密的方式,在开放的互联网环境中实现了加密通信,让通信的双方可以安心的说悄悄话。。 加密 SSL协议的