我正在做一个研究项目,我需要一个NLP程序来检测不同情况下的句子。我被建议使用OpenNLP,在阅读了它的维基页面后,我确信我会使用它。因此,我使用OpenNLP来检测句子以及任何不属于句子的单词或短语(也称为句子片段)。
如果您想重定向输入,OpenNLP接受. txt文件作为输入。如果您想使用. doc文件作为输入,您必须将其转换为. txt文件。我的问题就从这里开始。
我有很多不同格式的文件。我想检测每个文件中的句子,如果它们包含任何文本。因此,我开始将每个可能包含文本的文件转换为。txt文件。转换过程并不完美。例如,如果一个句子太长(比如说比一行长),那么转换工具会将句子的两行作为分隔的句子。由于第一行末尾的eoln字符,OpenNLP将每一行生成为不同的句子。
我的问题是,我是否可以参数化或配置OpenNLP以识别整个句子(第一行和第二行一起)?
尝试使用CoreNLP:nlp.stanford.edu:8080/corenlp/process将新行替换为空格
我建议您使用apache Tika来转换不同的文件。Apache Tika有AutoDetectParser,它可以检测不同的文件类型并提取其中的数据(如果需要,甚至可以提取元数据),您可以将其保存到一个数据库中。txt文件。
问题内容: 我创建的查询之一存在一个奇怪的“问题”。给定下一个查询: phpMyAdmin一直在引发有关没有名为“ LatestBookableTimestamp”的列的错误,即使我有一个由子查询检索的列,也就是该别名。我也尝试过使用tableprefix选择每一列。第八,这没有用。最终,我通过表别名选择了所有列,并为表指定了别名。一切都没有运气。 有人可以告诉我我在做什么错吗?我什至搜索了一些资
我有以下序列
我不确定这是否是一个与我没有这台计算机的管理权限有关的问题。任何帮助,以便我可以进一步排除故障,将非常感谢! 谢谢
问题内容: 我使用,当我得到 我删除了构建路径,然后又做了 ,仍然是同样的错误。 问题答案: 该代码不是Java SE的一部分,因此这些类将不在JRE中。您需要找到并下载包含这些类的JAR文件,然后将其添加到Eclipse构建路径中。 (可以在此处下载JAR的一个地方,但是如果此链接中断,可以轻松进行自己的搜索。请转到Maven Central或findjar。)
问题内容: 我有一个jimfs(内存文件系统中的Google)从字节数组中创建的zip文件。当尝试使用打开该文件时,出现错误,提示无法识别该提供程序。我的代码如下: URI类似于:。 堆栈跟踪为: jimfs未与一起列出。它位于分别与 for 相比的单独的类加载器中。 提供者的打印如下: 我尝试基于jimfs ClassLoaderTest示例手动设置类加载器,但没有成功。我在Linux上运行。
问题内容: 有时,我会在页面上寻找可能存在或不存在的元素。我想用/尝试/捕获这种情况,当某些HTML元素不存在时,selenium会抛出该异常。原始例外: 具有讽刺意味的是,它不会让我捕捉到之前抛出的异常吗?代码在这里: 错误在这里: 谷歌搜索/文档整理一无所获…让我感到奇怪的是,selenium可以引发异常但不能捕获它。 问题答案: 您需要先导入异常 然后你可以参考它