试图运行示例,但我一直无法打开“english-left3words-distsim.tagger”文件可能丢失。文件没有丢失,目录指向模型jar文件的位置,路径:edu\stanford\nlp\模型\pos-tagger\english-left3word在jar文件中是正确的。
我使用3.7.0,安装从nuget在视觉工作室2015.
代码如下:
var jarRoot = @"E:\VS Projects\Stanford.NLP.NET-master\Jar-files";
// Text for processing
var text = "Kosgi Santosh sent an email to Stanford University. He didn't get a reply.";
// Annotation pipeline configuration
var props = new Properties();
props.setProperty("annotators", "tokenize, ssplit, pos, lemma, parse, ner, dcoref");
// We should change current directory, so StanfordCoreNLP could find all the model files automatically
var curDir = Environment.CurrentDirectory;
Directory.SetCurrentDirectory(jarRoot);
var pipeline = new StanfordCoreNLP(props);
Directory.SetCurrentDirectory(curDir);
// Annotation
var document = new Annotation(text);
pipeline.annotate(document);
// Result - Pretty Print
using (var stream = new ByteArrayOutputStream())
{
pipeline.prettyPrint(document, new PrintWriter(stream));
Console.WriteLine(stream.toString());
stream.close();
}
我确实在Stack上看到了一个类似的问题,他们没有指向jar文件,但我指向jar文件存在的正确位置。有什么想法吗?
最终,我将目录指向实际的文件夹,即解压缩的jar文件,并且成功了。非常令人困惑的是,一个堆叠的问题陈述了完全相反的...
我正在注释和分析一系列文本文件。 pipeline.annotate方法每次读取文件时都会变得越来越慢。最终,我得到了一个OutOfMemoryError。 管道初始化一次: 然后,我使用相同的管道实例处理每个文件(如SO和斯坦福大学在其他地方推荐的)。 明确地说,我希望问题出在我的配置上。但是,我确信失速和内存问题发生在pipeline.annotate(file)方法上。 在处理每个文件后,我
我在使用Stanford pipeline(CoreNLP的最后一个版本)解析BNC时遇到了一个问题。 解析器只是停留在这个句子中,它甚至不会抛出错误。句子在web界面中得到正确的解析。 我尝试了标记器的选项,但没有结果。 我添加了我正在使用的命令行:java[...]edu.stanford.nlp.pipeline.stanfordCorenlp-注释器tokenize,ssplit,pos,
我假设我试图将输出转换成的格式是旧版本的CorenLP的默认输出。有什么方法可以得到所需格式的输出吗?
这是意料之中的行为吗?我在前面运行完整的管道吗?
我使用StanfordNLP来标记用智能手机编写的一组消息。这些文本有很多拼写错误,不遵守标点符号规则。通常,空格缺失会影响标记化。 例如,以下句子漏掉了“California.This”和“university,founded”中的空格。 斯坦福大学位于加利福尼亚州,这所大学是一所伟大的大学,创建于1891年。 标记器返回: {“斯坦福”、“大学”、“是”、“位于”、“加利福尼亚州”。这个”、“
我对这两个软件包做了一些比较,不确定应该朝哪个方向发展。我想简要介绍的是: 命名实体识别(人员、地点、组织等) 据我所知,OpenNLP和Stanford CoreNLP公开了非常相似的功能。然而,斯坦福大学的CoreNLP看起来有更多的活动,而OpenNLP在过去六个月里只有几次提交。 根据我所看到的,OpenNLP似乎更容易训练新的模型,仅仅因为这个原因可能更具吸引力。然而,我的问题是,其他人