对于文本情感分析任务,我使用以下注释器创建管道:
Annotators=标记、拆分、解析、情感
在阅读了关于注释器的文档后,我意识到标记化和ssplit将整个文本拆分为单独的句子,以便进一步解析。我目前正在研究的问题是推特的情绪分析。由于推文在大多数情况下都不会超过一行,因此在解析之前使用标记化和ssplit注释器似乎有些过分。
我试图排除前两个,但它不会让我做给出一个消息异常在线程"主"java.lang.IllegalArgumentException:注释器"解析"需要注释器"标记化"
有没有办法避免使用标记化和ssplit注释器来提高效率?
是的,如果您的文本已经标记化并且您的文件每行只有一个句子,您可以告诉标记器仅在空格处拆分标记,并且句子拆分器仅在换行符处拆分句子。
标记器的选项是-tokenize。空格true
和分句器选项-ssplit。仅限true
。
您可以在CoreNLP文档中找到关于标记器和句子拆分器选项的更多信息。
有人能想出一种方法来加速我的CoreNLP情绪分析(见下文)吗? 我在服务器启动时初始化CoreNLP管道一次: 然后我从控制器调用管道: 我已经分析了代码——行,这是CoreNLP的主要处理调用,非常慢。对我的控制器进行100次调用的请求平均需要1.07秒。注释每次调用需要~7ms。我需要将其减少到~2ms。 我不能删除任何注释,因为情绪依赖于所有注释。我已经在使用Shift-Reduce选区解
2)当我在应用程序模式下运行批量学习PR时:文本语料库的链接是怎样的?纯文本可以吗? 在第一次试验中,我使用了教程中相同的paum.xml文件,并将分级从double(2.0)转换为Strings(“2_star_rating”)--在训练和应用程序模式下没有发生错误--但是当我查看文本文件(我在app.mode中运行管道时)时,没有设置注释。
问题内容: Java类通常分为逻辑“块”。是否有标记这些部分的约定?理想情况下,主要的IDE将支持它。 我个人使用此方法: 但是,某些编辑器似乎对此有问题。 例如,在Objective-C代码中,您可以使用以下方法: 这将导致XCode中的菜单如下所示: 问题答案: 我个人使用80个字符的行分隔符,如下所示: 当然,对于这么小的POJO来说,这似乎有点过大了,但是请相信我,它在某些大型项目中非常有
问题内容: 我们正在索引中存储一个字段,并希望将该字段用于两个目的: 我们正在使用ngram过滤器进行分析,因此我们可以提供自动完成和即时结果 我们希望能够在字段上使用ASC排序而不是得分来列出结果。 索引/过滤器/分析器的定义如下: 当我们在字段上排序时,我们遇到的问题是不可预测的结果。经过一番搜索后,我们在ElasticSearch手册页的末尾找到了这个…(http://www.elastic
我有一个带有的布局,属性设置为: 菜单有五项: 第三项标签过长(第二个单词没有省略,只是没有显示): 标签稍微短一点会导致正确的行为: 有没有办法处理更长的标签?最好的解决方案是省略号并显示“更长的文本…”当全文没有空间时。
问题内容: 在阅读有关标记接口的信息时,我偶然发现了以下站点:项目37:使用标记接口定义类型 在这里,根据Joshua Bloch的说法,标记接口比标记注释有两个优点。 1. 标记接口定义了一种由标记的类的实例实现的类型。标记注释没有。这种类型的存在使您可以在编译时捕获错误,而如果使用标记注释,则这些错误在运行时才捕获。 2. 标记接口相对于标记注释的另一个优点是可以更精确地定位它们。如果使用ta