当前位置：首页 > 面试题库 >

大数据集的TFIDF

燕翔飞

2023-03-14

问题内容：

我有一个大约有800万条新闻文章的语料库，我需要以稀疏矩阵的形式获取它们的TFIDF表示形式。我已经能够使用scikit-learn来实现相对较少的样本数量，但是我相信它不能用于如此庞大的数据集，因为它首先将输入矩阵加载到内存中，这是一个昂贵的过程。

谁知道，对于大型数据集，提取TFIDF向量的最佳方法是什么？

问题答案：

Gensim具有高效的tf-idf模型，不需要一次将所有内容存储在内存中。

您的语料库只需要是可迭代的，因此不需要一次将整个语料库存储在内存中。

根据评论，make_wiki脚本可在笔记本电脑上约5,000万英里的维基百科上运行。

类似资料：

AWS SageMaker超大数据集

我有一个500GB的csv文件和一个1.5 TB数据的mysql数据库，我想运行aws sagemaker分类和回归算法和随机森林。 aws sagemaker能支持吗？模型可以批量或分块读取和训练吗？它的任何例子
从Redis检索大型数据集

问题内容：一台服务器上的应用程序查询在另一台服务器上运行的redis。来自查询的结果数据集大约为25万，在应用服务器上似乎需要40秒。在redis服务器或app服务器上使用命令执行命令时，在两种情况下，它们都需要大约40秒才能完成，如所述。在查询期间，redis服务器使用大约15％的CPU。问题：花费40秒检索250k记录是否很慢？是否有可能将其加速到几秒钟？问题答案：首先，它取决于
使用OpenNLP训练大数据集

我有文件及其非常大的文件说100MB文件。我想执行NER以提取组织名称。我使用OpenNLP进行了培训。示例代码：但是我得到了一个错误：。有没有办法使用openNLP for NER来训练大型数据集？你能发布示例代码吗？当我谷歌时，我发现Class GIS和DataIndexer界面可用于训练大型数据集，但我知道如何训练？你能发布示例代码吗？
从多个不同大小的数据集加载PyTorch数据

我有多个数据集，每个数据集中有不同数量的图像（和不同的图像维度）。在训练循环中，我想从所有数据集中随机加载一批图像，但每个批次只包含单个数据集中的图像。例如，我有数据集A、B、C、D，每个数据集都有图像01。jpg,02。jpg，…n.jpg（其中n取决于数据集），假设批量大小为3。例如，在第一个加载的批次中，我可能会在下一个批次[D/01.jpg，D/05.jpg，D/12.jpg]中获得图像[
用于大型数据集的Numpy[已关闭]

为了生成某些情况下的概率密度函数，可能需要考虑100万次观测。当我使用numpy数组时，遇到了大小限制32。是不是太少了？在这种情况下，我们如何存储32个以上的元素，而不将元素分布到不同的列中，或者在数组中分布数组？
Deeplearning4J-如何为大数据迭代多个数据集？

我正在学习用于构建神经网络的Deeplearning4j(Ver.1.0.0-M1.1)。我使用Deeplearning4j的IrisClassifier作为一个例子，它工作得很好：对于我的项目，我输入了大约30000条记录（在iris示例-150中）。每个记录是一个矢量大小~7000（在iris示例-4中）。显然，我不能在一个数据集中处理整个数据--这将为JVM产生OOM。如何处理多个数

大数据集的TFIDF

相关阅读

相关文章

相关问答

相关工具

相关文档