我曾使用grep和awk从斯坦福CRF-NER的“内联XML”中提取英语文本中的命名实体,我希望在其他人类语言中使用相同的更大工作流。 我一直在尝试法语(西班牙语似乎给我带来了一个Java错误,这是另一个故事),并使用我得到标准文本输出,每个句子都有各种类型的注释,包括正确组合在一起的多单词实体,如下所示: 我知道解析它是可能的,但当我真的只是想要整个文件中的实体列表时,这似乎浪费了很多处理。 我
我有一些不同语言的文本,可能有一些拼写错误或其他错误,我想检索他们自己的词汇。一般来说,我对自然语言处理没有经验,所以可能我使用了一些不正确的单词。 关于词汇,我指的是一种语言的单词集合,其中每个单词都是唯一的,不考虑性别、数字或时态的屈折变化(例如,think、thinks和thought are都是考虑-思考)。 这是一个主要问题,所以让我们把它简化为一种语言的词汇检索,例如英语,并且没有错误
我一直在尝试与斯坦福核心NLP合作。我希望训练我自己的NER模型。从论坛上的SO和官网上描述了如何使用一个属性文件来实现这一点。我将如何通过API实现它?。 怎么做
我目前正在使用定制模型,我正在为自己的用例进行培训。我的用例是根据是否是地址更改请求对电子邮件进行分类。如果地址更改请求可以从一句话中理解,那么它就可以正常工作,没有问题。但是,如果地址更改请求需要从多个句子中理解,那么它就不起作用。下面给出几个例子:-例子1:-这是有效的。a) 培训文件:- 我的新地址是CV14西米德兰兹考文垂多塞特路68号。完成后请确认。谢谢 b) 使用以下句子测试模型:-S
我在opennlp文档页面中遇到了这个类TokenizerME(http://opennlp.apache.org/documentation/manual/opennlp.html).我不明白怎么计算概率。我用不同的输入测试了它,但仍然不理解。有人能帮我理解它背后的算法吗?我编写了这个示例代码 我得到了这个输出 令牌:这个 代币:是吗 代币:是吗 代币:书 代币Prob:1.0 代币Prob:1
我目前在使用opennlp工具包培训新的ner模型时遇到了一个问题。我在网上找到了一个关于训练药物名称新模型的例子。用于培训的样本数据如下所示 我试图训练一个识别物种名称的模型,并设法创建了一个大约35000个句子的样本数据集。每句话都包含至少一个物种名称,我根据药物样本数据对其进行了相应的标记。看起来像这样 现在是有趣的部分。如果我开始训练,我会得到这个信息 结果数:1 线程"main"java
我即将从社交媒体、新闻网站、博客上发布的与政治、战争、DRUGS等特定领域相关的RAW测试中提取一些信息。所以我已经开始使用一些开源库,例如stanford-nlp、apache OpenNLP以及称为lexalytics的商业许可工具。 根据我的项目,我们正在分析公开发布的文本并生成一些结果,并根据一些参数进行挖掘,以确定这些帖子与什么类别相关。 但我需要使用斯坦福nlp库从给定的文本中提取主题
我正在分析几百万封电子邮件。我的目标是能够将其分类为组。组可以是例如: 交付问题(交付缓慢、发货前处理缓慢、可用性信息不正确等) 客户服务问题(电子邮件回复时间慢、回复不礼貌等) 退货问题(退货请求处理缓慢、客户服务缺乏帮助等) 定价投诉(发现隐藏费用等) 为了执行此分类,我需要一个可以识别词组组合的NLP,例如: "[他们|公司|公司|网站|商家]" "[没有|没有|没有]" "[回应|回应|回
我正在使用R编程语言和KerasAPI构建一个功能性的1D CNN。 我有一个包含以下形状行*特征(6000*1024)的数据集矩阵。 使用以下代码设置输入层: 然后我正在构建一个1d conv层,如下所示: 但我得到以下错误: py\u call\u impl(可调用,dots$参数,dots$关键字)中出错:值错误:输入0与层conv1d不兼容:预期ndim=3,发现ndim=2 我认为这是因
我刚刚开始使用CoreNLP版本3.6.0。我已经从这个网站下载了这个版本。使用命令行管道,我已经能够执行标准管道注释器,但是truecase注释器遇到了一个问题: 这是终端输出的副本: 有什么想法吗?
我试图分多个步骤运行核心管道,以减少昂贵的解析和注释步骤。 我有一个文档集,目前我正在用管道标记和破译它们。这很有效,在一定程度上,我可以利用这些信息做我需要做的事情。 根据我对标记化句子的处理,有些需要解析依赖关系,有些需要解析依赖关系,有些可能被认为不重要而丢弃。 我可以看到依赖关系解析器可以接收一个句子的核心图,然后返回依赖关系图。但在网上阅读时,我发现使用词性标注可以改善句法分析,这当然是
我试图在本页上编译并运行一个斯坦福NLP java示例:https://stanfordnlp.github.io/CoreNLP/api.html#quickstart-使用便利包装(第一个示例BasicPipeLine示例) 据说这个例子是为3.9.0开发的,但我哪里都找不到,所以我用的是3.9.2。 我在简单的scala构建工具下运行代码,因为进一步的工作将用scala编写。 我的身材。sb
我从https://stanfordnlp.github.io/CoreNLP/然后将其解压并放入cd。现在我试着运行下面的java文件<代码>javac-cp“*”分析。java工作正常,但是java情感分析在线程“main”java中抛出异常错误。lang.NoClassDefFoundError:edu/stanford/nlp/pipeline/StanfordCoreNLP。 导入jav
我正在使用斯坦福nlp工具提供的left3word模型。在道具文件中,arch参数指示了一些我无法定位的目录。有人能帮忙吗?非常感谢。 arch=left3word, naacl2003未知数,字形(-1,1),字形(/u/nlp/data/pos_tags_are_useless/egw4-reut.512.clusters,-1,1),字形(/u/nlp/data/pos_tags_are_u
我是nlp的新手,我正在尝试找出pos标签。目前我正在试用斯坦福nlp pos标签,url:http://nlp.stanford.edu/software/tagger.shtml 从上面的链接中,有这样一句话: 只要该语言有POS注释的培训文本,就可以对标记者进行任何语言的再培训。 然而,我无法让它工作。我现在所能做的就是给它一个文本文件来标记。例如,