当前位置: 首页 > 知识库问答 >
问题:

Stanford-nlp分类器对n>1的n-grams内存不足

阴礼骞
2023-03-14

我试图运行Stanford-nlp分类器的20个新闻文本分类示例,使用n-gram(n=>1,2,3)作为特性,但我仍然出现内存错误。下面是我使用的属性和运行它的命令:

2.useSplitWordNGrams=true
2.maxWordNGramLeng=3               
2.minWordNGramLeng=1               

java -mx1800m -cp $STANFORD_CLASSIFIER_JAR edu.stanford.nlp.classify.ColumnDataClassifier \
   -trainFile 20news-devtrain.txt -testFile 20news-devtest.txt \
   -2.useSplitWords -2.splitWordsRegexp "\\s+" -prop 20news1.prop

对于unigrams,程序按预期运行。问题是我只有4G内存可用,我想知道是否有可能加载像这样的大型号这样的内存这么少。

干杯,迪米特里斯

共有1个答案

万高洁
2023-03-14

我不能使用Stanford-NLP代码,但我可以一般性地回答关于n-gram特性的问题。如果你的词汇表中有v项,那么一个朴素的bigram模型就有v^2个参数(而一个trigram模型有v^3)。你应该做的是找到最具辨别力的bigrams,如果你确定你想要n-gram特性,就把它们用作特性。看看做这件事的各种特征选择方法。

 类似资料:
  • 最近,我一直在尝试用斯坦福核心NLP来训练n-gram实体。我遵循了以下教程--http://nlp.stanford.edu/software/crf-faq.shtml#b 这样,我就可以只指定unigram标记和它所属的类。有谁能引导我,让我把它延伸到n克。我正试图从聊天数据集中提取像电影名称这样的已知实体。 如果我误解了斯坦福教程,请指导我,同样的教程可以用于N克培训。

  • 我们正在学习stanford-nlp分类器的用法。正如它的维基页面所说,它可以用来建立像虹膜这样的数字数据的分类模型:http://www-nlp.stanford.edu/wiki/software/classifier#iris_data_set 但是在解释输出时,我们在其中一些方面遇到了困难:输入属性有4列(1-value、2-value、3-value、4-value),输出标签有一列(I

  • 手头的问题写了一个尝试改进的双克生成器在行上工作,考虑到句号和类似的东西。结果如所愿。它不使用mapPartitions,但如下所示。 提前谢了。我一定是漏掉了一些基本的问题。 输出&结果z:Array[(String,String)]=Array((hello,how),(how,are),(are,you),(you,today),(i,am),(am,fine),(fine,but),(bu

  • 作为理解用于分类的斯坦福nlp api的一部分,我在一个非常简单的训练集(3个标签=>['快乐'、'悲伤'、'中立'])上训练朴素贝叶斯分类器。此训练数据集为

  • 本文向大家介绍在C ++中找到(1 ^ n + 2 ^ n + 3 ^ n + 4 ^ n)mod 5,包括了在C ++中找到(1 ^ n + 2 ^ n + 3 ^ n + 4 ^ n)mod 5的使用技巧和注意事项,需要的朋友参考一下 在本教程中,我们将解决以下问题。 给定一个整数n,我们必须找到(1 n +2 n +3 n +4 n)%5 如果n大,则数字(1 n +2 n +3 n +4

  • 1.接口描述 该API的功能是创建一个1比 n 图片搜索库。 每个库最多图片上限5000张,每个api_id最多建立5个图片搜索库。 请求方式 POST 请求 URL https://cloudapi.linkface.cn/search/db/create 2.请求参数 字段 类型 必需 描述 api_id string 是 API 账户 api_secret string 是 API 密钥