当前位置：首页 > 面试题库 >

从文本文件中提取单词

云默

2023-03-14

问题内容：

假设您有一个像这样的文本文件：http :
//www.gutenberg.org/files/17921/17921-8.txt

有没有人有一个好的算法或开放源代码从文本文件中提取单词？如何获得所有单词，同时避免使用特殊字符，并保留诸如“ it’s”之类的内容…

我在用Java工作。谢谢

问题答案：

这听起来像是正则表达式的正确工作。如果您不知道如何开始，以下是一些Java代码，可以帮助您：

String input = "Input text, with words, punctuation, etc. Well, it's rather short.";
Pattern p = Pattern.compile("[\\w']+");
Matcher m = p.matcher(input);

while ( m.find() ) {
    System.out.println(input.substring(m.start(), m.end()));
}

该模式[\w']+多次匹配所有单词字符和撇号。示例字符串将逐字打印。查看Java
Pattern类文档
以了解更多信息。

类似资料：

从大文件中提取文本

我需要从大文件中提取文本（最大限制50MB）文件可能是doc、ppt、xls、txt或pdf格式。到目前为止，我使用了ApachePOI'http://poi.apache.org/' 用于Microsoft Office文档和PDFBox从PDF中提取文本。然而，随着文件变大，提取过程变得缓慢，特别是以下文件。到目前为止我取得的成果： 1. PPTX-45MB-3分钟apx 2.PDF-62MB
从文本文件中提取浮动

我正在使用它从文本文件中提取结果：文件中存储的数字存储为他们被拉入名单是不是我可以用matplotlib将这个列表转换成浮点来绘制？
如何从PDF文件中提取文本？

问题内容：我正在尝试使用提取此 PDF文件中包含的文本。我正在使用PyPDF2模块，并具有以下脚本：运行代码时，得到以下输出，该输出与PDF文档中包含的输出不同：如何提取PDF文档中的文本？问题答案：要从PDF提取文本，请使用以下代码
使用Python从HTML文件中提取文本

问题内容：我想使用Python从HTML文件中提取文本。如果要从浏览器复制文本并将其粘贴到记事本中，我希望得到的输出基本上相同。我想要比使用正则表达式更强大的功能，而正则表达式可能在格式不正确的HTML上失败。我见过很多人推荐美丽汤，但是使用它时遇到了一些问题。例如，它拾取了不需要的文本，例如JavaScript源。此外，它没有解释HTML实体。例如，我希望＆＃39; 在HTML源代码中转换为
从文本中提取JSON

问题内容： AJAX调用返回的响应文本包括JSON字符串。我需要：提取JSON字符串修改它然后重新插入以更新原始字符串我不太担心步骤2和3，但是我不知道如何执行步骤1。我当时在考虑使用正则表达式，但是我不知道该怎么做，因为我的JSON可能具有嵌套对象的多个级别或数组。问题答案：您不能使用正则表达式从任意文本中提取JSON。由于正则表达式通常不够强大，无法验证JSON（除非可以使用PCR
从python中的MS Word文件中提取文本

问题内容：为了在python中处理MS Word文件，有python win32扩展名，可以在Windows中使用。我该如何在linux中做同样的事情？有图书馆吗？问题答案：您可以对antiword进行子过程调用。Antiword是一个Linux命令行实用程序，用于从word doc中转储文本。适用于简单文档（显然会丢失格式）。它可以通过apt（可能是RPM）获得，也可以自己编译。

从文本文件中提取单词

相关阅读

相关文章

相关问答

相关工具

相关文档