当前位置: 首页 > 工具软件 > Dabo > 使用案例 >

机器学习数据挖掘从零开始的学习路线——dabo的干货

陆文斌
2023-12-01

1年前给师弟写的 刚才整理资料看到了 放网上吧 如果有侵犯到大佬隐私 请私信我 马上删除

一:前言

1.1 学习机器学习有什么好处
因为成年人的世界讲利弊,所以大部分人在做选择的时候只考虑对自己有极大利益的决定。虽然我们往往否认这样的说辞,但不得不承认多数人就是这么做的。那我就功利的讲讲学机器学习的好处:第一,容易写论文,只要有数据,只要会熟练运用各种算法模型,只要加一点针对数据的改进获得好的效果,那就有创新点了。第二,容易找工作,虽然这个方向趋于泡沫趋于饱和,但是只能说会点皮毛的人比比皆是,真正能熟练运用到实际中的高手寥寥无几。总体的工作方向有三块:数据分析人员/算法工程师/大数据工程师。
1.2 一句实话
学习的动力来源于兴趣,如果不喜欢就别勉强,如果不喜欢就别继续往下看,别耽误自己的时间。如果没有毅力,不要去碰触这个东西,学个一知半解还不如学好Java找工作。

二:机器学习未来工作的几个方向
1.1 数据分析师
根据实际业务分析嘛,就分析嘛,要求统计学功底强一点,思维天马行空一点。
1.2 NLP自然语言处理方向算法工程师
就是自然语言嘛,比如百度翻译啊,根据某人微博判断心情啊,让电脑写文章啊,win10里的那个小娜啊,apple里的那个siri啊。
1.3 语音识别方向算法工程师
这个现在最火了,跟NLP相关度比较高,目前提升空间很大,很多牛人在研究这个领域。
1.4 计算机视觉图像方向算法工程师
搞图像啊,比如图片分类啊,提取图片信息啊,视频监控啊,无人车啊,地图啊,反正跟图有关的东西嘛,方向比较多,个人觉得比较有挑战性。
1.5 推荐方向广告方向算法工程师
就像今日头条那种东西,像百度搜索那种rank的东西嘛,目前比较成熟。
1.6 大数据方向工程师
数据量太大了嘛,不用分布式怎么处理呢?所以要会hadoop spark嘛,不仅要会使用,进阶要求能开发,能把那些算法部署在这些分布式平台上。

三:学习准备
1.1 基础知识
大语言一种(java或c++,大部分是java)+python(必会),其他统计工具如R matlab spss excel 现用现看吧,其实会了python那些东西没什么卵用。数据结构(必会,不废话了)。Linux(尽量应用吧,在linux下应用多一些)。Hadoop spark(由浅入深,先学会使用,反正先会用)。
1.2 书籍
机器学习实战(《实战》) 统计学习方法(《统计》) 机器学习西瓜书(《西瓜》)
(先买了,电子版我在某qq群中传过)《凸优化》
1.3 学习视频
a 吴恩达斯坦福机器学习,非常浅显易懂,貌似看完就觉得自己高大上了,其实因为太简单,仅仅是入门,看完这个不要吹牛说自己懂机器学习。一共18课,2-9课是基础,建议认真听。
b 炼数成金 机器学习 一共11课,也是基础,可以看一遍加深印象,一天一课。
c 张志华机器学习导论 现场教学视频,公式完全手推,如果某个知识点自己看书看博客都没看懂,建议看看老师的手推视频,其他不建议看。
d 七月在线july视频 对各个模型都有深入解释,挺好的。
e 台大的《机器学习基石》与《机器学习技法》

四:入门路线
1.1 把西瓜书第1,2章看了(2个小时)上述视频ab的第一讲可看可不看。
1.2 接下来完全跟《机器学习实战》这本书走。
1.3 《实战》第二章k近邻->找对应视频->找《统计》《西瓜》具体内容读->《实战》代码完全手敲一遍->调用sklearn工具包使用一次KNN->结束。(三天)
1.4 《实战》第三章决策树,过程同1.3。决策树是重点,多花时间,《统计》中的例子要会计算,手算!目标:缺失值?分裂公式?连续值?(四天)
1.5 《实战》第四章朴素贝叶斯。这里就看《实战》就可以,理解概率含义。(两天)
1.6 EM算法 找博客 理解它的含义尽量会推导即可。(一天)
1.7 “线性回归” 视频ab均可,找《统计》《西瓜》具体内容读,重点理解梯度下降算法!编码实现梯度下降!代码可以在网上找。目标:解释梯度下降?导数?梯度?(两天或三天)
1.8 “牛顿法” (一天)
1.9 《实战》第五章逻辑斯蒂回归,过程同1.3。目标:sigmod优点?损失函数是什么?(三天)
1.10 《实战》第六章SVM,过程同1.3。看书看不懂,必须看博客。目标:SVM与LR的异同?SVM公式推导?拉格朗日乘子法?(五天)
1.11 《实战》第七章Adaboost,过程同1.3。其他书的“集成学习”部分看了。目标:RF与Adaboost区别?(四天)
1.12 《实战》第八章 树回归,过程同1.3。与前文决策树相关,决策树再读一遍。目标:预剪枝后剪枝什么意思?损失函数?(两天)
1.13 《实战》第十章 kmeans,过程同1.3。目标:kmeans优缺点?如何改进?EM与kmeans的关系?(4天+相关dbscan算法)
1.14 《实战》第13章14章PCA与SVD,过程同1.3。相对简单。(3-4天)
1.15 “神经网络”(3天)
1.16 每个人根据自身情况调整,基本上一个半月这本书看完,保证算法熟悉。
1.17 至此,最基本最基本的东西学完了,还有一些遗漏的知识点查漏补缺吧。
1.18 接下来要针对不同领域来学习 +(深度学习)
1.19 Xgboost GBDT等集成学习思路
1.20 NLP ——>HMM、CRF、 TF、IDF 、wordVec +(深度学习RNN)
1.21 计算机视觉 ——>相关算法+(深度学习CNN)
1.22 推荐 ——> FM、FFM、各种协同过滤+(深度学习DBN)
1.23 实践是检验真理的唯一标准
1.24 参加数据挖掘比赛或者依靠数据做实验写论文

五:数据挖掘比赛平台
1.1 kaggle\天池\datafountain\腾讯京东也会办一些

1.2 一些有的没的 看看资料 看看大神的简历 看看别的比赛

 类似资料: