当前位置: 首页 > 面试题库 >

大数据集的TFIDF

燕翔飞
2023-03-14
问题内容

我有一个大约有800万条新闻文章的语料库,我需要以稀疏矩阵的形式获取它们的TFIDF表示形式。我已经能够使用scikit-learn来实现相对较少的样本数量,但是我相信它不能用于如此庞大的数据集,因为它首先将输入矩阵加载到内存中,这是一个昂贵的过程。

谁知道,对于大型数据集,提取TFIDF向量的最佳方法是什么?


问题答案:

Gensim具有高效的tf-idf模型,不需要一次将所有内容存储在内存中。

您的语料库只需要是可迭代的,因此不需要一次将整个语料库存储在内存中。

根据评论,make_wiki脚本可在笔记本电脑上约5,000万英里的维基百科上运行。



 类似资料:
  • 我有一个500GB的csv文件和一个1.5 TB数据的mysql数据库,我想运行aws sagemaker分类和回归算法和随机森林。 aws sagemaker能支持吗?模型可以批量或分块读取和训练吗?它的任何例子

  • 问题内容: 一台服务器上的应用程序查询在另一台服务器上运行的redis。来自查询的结果数据集大约为25万,在应用服务器上似乎需要40秒。 在redis服务器或app服务器上使用命令执行命令时,在两种情况下,它们都需要大约40秒才能完成,如所述。 在查询期间,redis服务器使用大约15%的CPU。 问题: 花费40秒检索250k记录是否很慢?是否有可能将其加速到几秒钟? 问题答案: 首先,它取决于

  • 我有文件及其非常大的文件说100MB文件。我想执行NER以提取组织名称。我使用OpenNLP进行了培训。 示例代码: 但是我得到了一个错误:。 有没有办法使用openNLP for NER来训练大型数据集?你能发布示例代码吗? 当我谷歌时,我发现Class GIS和DataIndexer界面可用于训练大型数据集,但我知道如何训练?你能发布示例代码吗?

  • 我有多个数据集,每个数据集中有不同数量的图像(和不同的图像维度)。在训练循环中,我想从所有数据集中随机加载一批图像,但每个批次只包含单个数据集中的图像。例如,我有数据集A、B、C、D,每个数据集都有图像01。jpg,02。jpg,…n.jpg(其中n取决于数据集),假设批量大小为3。例如,在第一个加载的批次中,我可能会在下一个批次[D/01.jpg,D/05.jpg,D/12.jpg]中获得图像[

  • 为了生成某些情况下的概率密度函数,可能需要考虑100万次观测。当我使用numpy数组时,遇到了大小限制32。 是不是太少了? 在这种情况下,我们如何存储32个以上的元素,而不将元素分布到不同的列中,或者在数组中分布数组?

  • 我正在学习用于构建神经网络的Deeplearning4j(Ver.1.0.0-M1.1)。 我使用Deeplearning4j的IrisClassifier作为一个例子,它工作得很好: 对于我的项目,我输入了大约30000条记录(在iris示例-150中)。每个记录是一个矢量大小~7000(在iris示例-4中)。 显然,我不能在一个数据集中处理整个数据--这将为JVM产生OOM。 如何处理多个数