问题：

OpenNLP SentenceDetector无法识别整个句子

宓英哲

2023-03-14

我正在做一个研究项目，我需要一个NLP程序来检测不同情况下的句子。我被建议使用OpenNLP，在阅读了它的维基页面后，我确信我会使用它。因此，我使用OpenNLP来检测句子以及任何不属于句子的单词或短语（也称为句子片段）。

如果您想重定向输入，OpenNLP接受. txt文件作为输入。如果您想使用. doc文件作为输入，您必须将其转换为. txt文件。我的问题就从这里开始。

我有很多不同格式的文件。我想检测每个文件中的句子，如果它们包含任何文本。因此，我开始将每个可能包含文本的文件转换为。txt文件。转换过程并不完美。例如，如果一个句子太长（比如说比一行长），那么转换工具会将句子的两行作为分隔的句子。由于第一行末尾的eoln字符，OpenNLP将每一行生成为不同的句子。

我的问题是，我是否可以参数化或配置OpenNLP以识别整个句子（第一行和第二行一起）？

共有2个答案

鱼阳伯

2023-03-14

尝试使用CoreNLP：nlp.stanford.edu:8080/corenlp/process将新行替换为空格

孔飞舟

2023-03-14

我建议您使用apache Tika来转换不同的文件。Apache Tika有AutoDetectParser，它可以检测不同的文件类型并提取其中的数据（如果需要，甚至可以提取元数据），您可以将其保存到一个数据库中。txt文件。

类似资料：

WHERE语句中无法识别列别名

问题内容：我创建的查询之一存在一个奇怪的“问题”。给定下一个查询： phpMyAdmin一直在引发有关没有名为“ LatestBookableTimestamp”的列的错误，即使我有一个由子查询检索的列，也就是该别名。我也尝试过使用tableprefix选择每一列。第八，这没有用。最终，我通过表别名选择了所有列，并为表指定了别名。一切都没有运气。有人可以告诉我我在做什么错吗？我什至搜索了一些资
无法识别JAVA_OPTS

我有以下序列
无法识别“gulp”

我不确定这是否是一个与我没有这台计算机的管理权限有关的问题。任何帮助，以便我可以进一步排除故障，将非常感谢！谢谢
Eclipse无法识别org.jdesktop。*

问题内容：我使用，当我得到我删除了构建路径，然后又做了，仍然是同样的错误。问题答案：该代码不是Java SE的一部分，因此这些类将不在JRE中。您需要找到并下载包含这些类的JAR文件，然后将其添加到Eclipse构建路径中。（可以在此处下载JAR的一个地方，但是如果此链接中断，可以轻松进行自己的搜索。请转到Maven Central或findjar。）
ZipFileSystemProvider无法识别JIMFS

问题内容：我有一个jimfs（内存文件系统中的Google）从字节数组中创建的zip文件。当尝试使用打开该文件时，出现错误，提示无法识别该提供程序。我的代码如下： URI类似于：。堆栈跟踪为： jimfs未与一起列出。它位于分别与 for 相比的单独的类加载器中。提供者的打印如下：我尝试基于jimfs ClassLoaderTest示例手动设置类加载器，但没有成功。我在Linux上运行。
pythonseleniumwebscraping“ NoSuchElementException”无法识别

问题内容：有时，我会在页面上寻找可能存在或不存在的元素。我想用/尝试/捕获这种情况，当某些HTML元素不存在时，selenium会抛出该异常。原始例外：具有讽刺意味的是，它不会让我捕捉到之前抛出的异常吗？代码在这里：错误在这里：谷歌搜索/文档整理一无所获…让我感到奇怪的是，selenium可以引发异常但不能捕获它。问题答案：您需要先导入异常然后你可以参考它

OpenNLP SentenceDetector无法识别整个句子

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档