我必须用很多空手和当地的术语来分析非正式的英语文本。因此,我正在考虑为斯坦福标签创建模型。
如何为斯坦福标记者创建自己的标记语料库集以进行培训?
语料库的语法是什么?我的语料库应该达到多长时间才能达到理想的性能?
要训练PoS标记器,请参阅此邮件列表帖子,该帖子也包含在MaxentTagger类的JavaDocs中。
edu.stanford.nlp.tagger.maxent.Train类的javadocs
指定训练格式:
培训文件应采用以下格式:每行一个单词和一个标签,每行之间用空格或制表符分隔。每个句子应以EOS单词标签对结尾。(实际上,我不确定是否仍然如此,但可能不会受到伤害。-wmorgan)
我一直在尝试与斯坦福核心NLP合作。我希望训练我自己的NER模型。从论坛上的SO和官网上描述了如何使用一个属性文件来实现这一点。我将如何通过API实现它?。 怎么做
我是opennlp新手,需要帮助来定制解析器 我已经使用了带有预训练模型的opennlp解析器en-pos-maxtent.bin用相应的语音部分标记新的原始英语句子,现在我想自定义标签。 例句:狗跳过墙。 使用en-pos-maxtent.bin进行POS标记后,结果将是 狗-NNP 跳跃-VBD 超过-在 The-DT wall-NN 但是我想训练我自己的模型并用我的自定义标签标记单词,例如
我正在注释和分析一系列文本文件。 pipeline.annotate方法每次读取文件时都会变得越来越慢。最终,我得到了一个OutOfMemoryError。 管道初始化一次: 然后,我使用相同的管道实例处理每个文件(如SO和斯坦福大学在其他地方推荐的)。 明确地说,我希望问题出在我的配置上。但是,我确信失速和内存问题发生在pipeline.annotate(file)方法上。 在处理每个文件后,我
我在使用Stanford pipeline(CoreNLP的最后一个版本)解析BNC时遇到了一个问题。 解析器只是停留在这个句子中,它甚至不会抛出错误。句子在web界面中得到正确的解析。 我尝试了标记器的选项,但没有结果。 我添加了我正在使用的命令行:java[...]edu.stanford.nlp.pipeline.stanfordCorenlp-注释器tokenize,ssplit,pos,
我从这里学习了如何用Java定制Stanford NER(命名实体识别器): http://nlp.stanford.edu/software/crf-faq.shtml#a 但是我正在使用Python开发我的项目,在这里我需要使用一些自定义实体来训练我的分类器。 我寻找了很多解决方案,但没有找到。知道吗?如果不可能,是否有其他方法可以使用自定义实体(即nltk或python中的其他实体)来训练分
Stanford NLP是否为提供了一种训练方法,使其能够用自己的语料库进行训练,并创建自己的句子拆分模型? 我正在与德语句子工作,我需要创建我自己的句子拆分任务的德语模型。因此,我需要训练句子拆分器。 我有办法做到吗?