当前位置: 首页 > 软件库 > 大数据 > 数据处理 >

Big Data Sampling Under Chi-square

基于卡方检验的大数据抽样工具
授权协议 GPL
开发语言 Python
所属分类 大数据、 数据处理
软件类型 开源软件
地区 国产
投 递 者 魏烨熠
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

基于卡方检验的大数据抽样工具

介绍

抽样是数据科学中的基本方法之一。它可以降低数据规模并简化计算。本工具包给出一种保持分布不变性的抽样工具,使得即使在小样本数据量下也不会影响这些数据分析模型的准确性。本工具包基于皮尔逊检验的保持分布不变的启发式抽样压缩算法。该算法基于两个评分函数进行抽样,其中一个评分函数基于皮尔逊检验,另一个评分函数基于似然函数。

使用方法

大数据抽样压缩工具含两个版本:Matlab版和Python版。

两个版本的功能一致,但Matlab版的运行速度比Python版快。

Matlab版依赖于Matlab v9.7(2019b)运行时环境。若已经安装了Matlab 2019b,则可以在Matlab命令行窗口输入mrcinstaller直接安装。另外,可以从[网址](https://www.mathworks.com/products/compiler/mcr/index.html)中下载Matlab2019b对应的运行环境。

Python版直接运行源码网址下的文件

hsa_python_with_ui/hsa_python_with_ui/hsa_python_with_ui.py

 Matlab版直接运行源码网址下的文件

hsa_matlab_with_ui/hsa_matlab_with_ui/hsa_matlab_with_ui.py

更详细的内容请参考项目中的用户说明书。

界面

Python版本的主界面如下

Matlab版本的主界面如下

参考文献

[1] Yang J, Wang J, Cheng W, et al. Sampling to Maintain Approximate Probability Distribution Under Chi-Square Test[C]//National Conference of Theoretical Computer Science. Springer, Singapore, 2019: 29-45.

[2] Yang J Y, Wang J D, Zhang Y F, et al. A Heuristic Sampling Method for Maintaining the Probability Distribution[J]. Journal of Computer Science and Technology, 2021, 36(4): 896-909.

  •  Why plot data? 1)     Plotting your data should usually be the first done once a data set is ready to be analyzed.  The purpose is to a)    Look for trends b)    Discover unusual observations (outlie

 相关资料
  • 1. 什么是抽样 从总体中抽取一部分的个体所组成的集合叫做样本,样本中的个体数目叫做样本数量。当总数据量足够大时,通过对抽样样本数据的分析,可以挖掘出总体数据中的信息。 2. 百度统计中的数据抽样 基础报告不受抽样影响。 百度统计分析云版本功能中的事件分析、用户洞察、行为流等采用了抽样策略。 为保证复杂的在线多维度分析计算时效性,用户细分与高级筛选功能也是在抽样后的数据中计算。 您可以在报告右上方

  • 问题内容: 我使用以下代码来确定观测值(例如20、20、0和0)与期望值/比率(例如,在四种情况下分别为25%)的拟合程度如何: 如何在Python中复制此代码?我试过使用from中的函数,但是获得的结果却大不相同。我不确定这是否是正确的功能。我在文档中进行了搜索,但是由于运行到1000多个页面,这非常令人生畏。该文件比增加近50%。 问题答案: 期望观察到的和期望的绝对频率,而不是比率。您可以获

  • 1. 什么是抽样 从总体中抽取一部分的个体所组成的集合叫做样本,样本中的个体数目叫做样本数量。当总数据量足够大时,通过对抽样样本数据的分析,可以挖掘出总体数据中的信息。 2. 百度统计中的数据抽样 基础报告不受抽样影响。 百度统计分析云版本功能中的事件分析、用户洞察、行为流等采用了抽样策略。 为保证复杂的在线多维度分析计算时效性,用户细分与高级筛选功能也是在抽样后的数据中计算。 您可以在报告右上方

  • 主要内容:语法,示例卡方检验是一种统计方法,用于确定两个分类变量之间是否具有显着的相关性。 这些变量应该来自相同的人口,它们应该是分类的,如 - 是/否,男/女,红/绿等。 例如,我们可以建立一个数据集,观察人们的冰淇淋购买模式,并尝试将一个人的性别与他们喜欢的冰淇淋的味道相关联。 如果发现相关性,我们可以通过了解访问者的性别数量来调整对应口味的库存。 语法 执行卡方检验的函数是:。 在R中创建卡方检验的基本语法是

  • 我试图用JAVA开发一个应用程序,它将检查用户输入的信用卡号是否有效。 下面是检查模数10的步骤: 步骤1:从右到左每秒数字加倍。如果一个数字的倍增导致一个两位数,则将这两个数字相加得到一个个位数。 步骤4:求和步骤2和步骤3的结果 步骤5:如果步骤4的结果可被10整除,则卡号有效;否则无效。在这种情况下,卡号无效--因为75不能被10整除。 到目前为止,我的问题是,我尝试的每一个卡号(使用有效的

  • 我正在开发基于地图的android应用程序,并使用firebase数据库(谷歌实时数据库免费版)。但是我不能使用latlng数据检索数据。 帮助我爱人

  • 问题内容: 我正在尝试根据元素的(100%)高度使用宽度大小制作一个响应式正方形。我相信仅使用CSS是不可能的。 正方形宽度应等于高度(大型容器的100%。大型容器大于屏幕的100%)。该比例必须为width = height才能保持正方形。 问题答案: 好的,这里的解决方案。

  • 我试图写一个过程,它从存储在数据库中的一组记录中读取cron表达式,并运行一个作业(如果该表达式在接下来的一个小时内触发,则执行一个程序)。数据库中带有cron表达式的记录可以有不同的触发时间(如星期五或每小时等)。 带有cron表达式的表示例。 用户可以更新表中的crons。 设计这种应用程序的最佳方式是什么? 我在这里看到的主要问题如下:假设我每1小时运行一次工作,并在接下来的一个小时内记录计