当前位置: 首页 > 面试题库 >

如何进行探索性数据分析(EDA)?

杨安歌
2023-03-14
本文向大家介绍如何进行探索性数据分析(EDA)?相关面试题,主要包含被问及如何进行探索性数据分析(EDA)?时的应答技巧和注意事项,需要的朋友参考一下

EDA的目的是去挖掘数据的一些重要信息。一般情况下会从粗到细的方式进行EDA探索。一开始我们可以去探索一些全局性的信息。观察一些不平衡的数据,计算一下各个类的方差和均值。看一下前几行数据的信息,包含什么特征等信息。使用Pandas中的df.info()去了解哪些特征是连续的,离散的,它们的类型(int、float、string)。接下来,删除一些不需要的列,这些列就是那些在分析和预测的过程中没有什么用的。

比如:某些列的值很多都是相同的,或者这些列有很多缺失值。当然你也可以去用一些中位数等去填充这些缺失值。然后我们可以去做一些可视化。对于一些类别特征或者值比较少的可以使用条形图。类标和样本数的条形图。找到一些最一般的特征。对一些特征和类别的关系进行可视化去获得一些基本的信息。然后还可以可视化两个特征或三个特征之间的关系,探索特征之间的联系。

你也可以使用PCA去了解哪些特征更加重要。组合特征去探索他们的关系,比如当A=0,B=0的类别是什么,A=1,B=0呢?比较特征的不同值,比如性别特征有男女两个取值,我们可以看下男和女两种取值的样本类标会不会不一样。

另外,除了条形图、散点图等基本的画图方式外,也可以使用PDF\CDF或者覆盖图等。观察一些统计数据比如数据分布、p值等。这些分析后,最后就可以开始建模了。

一开始可以使用一些比较简单的模型比如贝叶斯模型和逻辑斯谛回归模型。如果你发现你的数据是高度非线性的,你可以使用多项式回归、决策树或者SVM等。特征选择则可以基于这些特征在EDA过程中分析的重要性。如果你的数据量很大的话也可以使用神经网络。然后观察ROC曲线、查全率和查准率。

 类似资料:
  • 本章会讨论如何评价分类器的效果,方法包括十折交叉验证、留一法、以及Kappa检验等,同时还会引入kNN算法。 内容: 效果评估算法和kNN 留一法 混淆矩阵 代码示例 Kappa指标 优化近邻算法

  • 一面 2023.1.10 着重考察个人性格能力(自驱性、积极主动性、对成长的思考)、过往项目的参与深度 自我介绍 选一段实习经历,讲一下你的工作和角色 快手这段经历干了很久,为什么要离职 你说你在快手后期是主动思考的角色,讲一个例子证明一下 你觉得这些实习经历里,让你觉得有挑战,比较困难的事情或者时刻是什么 用一句话形容你自己 你下一段实习的目标是什么,希望获得什么 面试官介绍岗位对接的业务、工作

  • 当你检查一个商业活动并且发现了把它转换为软件应用程序的需求时,数据分析是软件开发早期的一个过程。这是一个官方的定义,当你,一个程序员,应该集中注意力在写别人设计的东西的代码时,这可能会让你相信数据分析是一种更应该归入系统分析的行为。如果我们严格遵循软件工程范式,这可能是正确的。有经验的程序员会成为设计者,最尖锐的设计者变成商业分析师,因此被冠名去思考所有数据需要,并且给你充分定义的任务去执行。这不

  • 探索您的数据 单击侧面导航中的 Discover 进入 Kibana 的数据探索功能: 在查询框里,您可以输入 Elasticsearch 查询语句 来搜索您的数据。您可以在 Discover 页面下查看搜索结果并在 Visualize 页面下生成已保存搜索的可视化效果。 当前索引模式显示在查询栏下面。索引模式决定了当您提交查询时搜索哪些索引。要搜索一组不同的索引,可以从下拉菜单中选择不同的模式。

  • 使用指南 - 数据报告 - 转化分析 - 如何进行订单分析 对于电商类的网站,您可以使用百度统计的订单分析报告,用于分析PC、无线网站、APP内H5页面的购买活动。通过订单报告可以了解商品交易信息、订单数,金额、转化率、投资回报率等指标,并在其他报告(如趋势、来源等)中对订单指标进行交叉分析。可监控的指标包括:订单数,订单金额、订单转化率、订单投资回报率等。 具体使用流程如下: 在百度统计【应用中