当前位置：首页 > 面试题库 >

使用nltk从文本文件中提取所有名词

郝昊天

2023-03-14

问题内容：

有更有效的方法吗？我的代码读取一个文本文件并提取所有名词。

import nltk

File = open(fileName) #open file
lines = File.read() #read all lines
sentences = nltk.sent_tokenize(lines) #tokenize sentences
nouns = [] #empty to array to hold all nouns

for sentence in sentences:
     for word,pos in nltk.pos_tag(nltk.word_tokenize(str(sentence))):
         if (pos == 'NN' or pos == 'NNP' or pos == 'NNS' or pos == 'NNPS'):
             nouns.append(word)

如何减少此代码的时间复杂度？有没有办法避免使用嵌套的for循环？

提前致谢！

问题答案：

如果您不接受其他选项NLTK，请签出TextBlob。它可以轻松提取所有名词和名词短语：

>>> from textblob import TextBlob
>>> txt = """Natural language processing (NLP) is a field of computer science, artificial intelligence, and computational linguistics concerned with the inter
actions between computers and human (natural) languages."""
>>> blob = TextBlob(txt)
>>> print(blob.noun_phrases)
[u'natural language processing', 'nlp', u'computer science', u'artificial intelligence', u'computational linguistics']

类似资料：

如何使用NLTK[复制]从文本中提取引文

我有一个项目，我需要从一大堆文章中提取引文。在这里，引用我的意思是人们所说的事情，例如：阿伦说“要提取的文本”我将NLTK用于其他与NLP相关的任务，因此任何使用NLTK或任何类型的Python库的解决方案都非常有用。谢谢
使用python从NLTK中提取名词短语

我是新的Python和nltk。我已经将代码从https://gist.github.com/alexbowe/879414转换为下面给定的代码，使其运行于许多文档/文本块。但我得到了以下错误有人能帮我解决这个问题吗。我必须从数以百万计的产品评论中提取名词短语。我使用了使用Java的Standford NLP工具包，但速度非常慢，所以我认为在python中使用nltk会更好。如果有更好的解决方案
使用Python从HTML文件中提取文本

问题内容：我想使用Python从HTML文件中提取文本。如果要从浏览器复制文本并将其粘贴到记事本中，我希望得到的输出基本上相同。我想要比使用正则表达式更强大的功能，而正则表达式可能在格式不正确的HTML上失败。我见过很多人推荐美丽汤，但是使用它时遇到了一些问题。例如，它拾取了不需要的文本，例如JavaScript源。此外，它没有解释HTML实体。例如，我希望＆＃39; 在HTML源代码中转换为
从文本中提取名词（Java）

问题内容：有谁知道从文本中仅提取名词的最简单方法？我听说过TreeTagger工具，但尝试尝试一下，但由于某种原因而无法使用。有什么建议？谢谢菲尔编辑：那是我的代码，英语是语言。我遇到了错误：new TokenHandler（）{}类型必须实现继承的抽象方法TokenHandler.token。难道我做错了什么？问题答案：首先，您必须标记文本。这看似微不足道（在任何空格处分割都可以
使用iText从pdf文件中提取文本列

问题内容：我需要使用iText从pdf文件中提取文本。问题是：一些pdf文件包含2列，当我提取文本时，我得到一个文本文件，其中的列作为结果合并（即同一行中两列的文本）这是代码：你能帮我完成这个任务吗？问题答案：我是iText文本提取子系统的作者。您需要做的是开发自己的文本提取策略（如果您看一下如何实现的话，就会发现您可以提供可插拔的策略）。您将如何确定列的开始和停止位置完全取决于您-
从大文件中提取文本

我需要从大文件中提取文本（最大限制50MB）文件可能是doc、ppt、xls、txt或pdf格式。到目前为止，我使用了ApachePOI'http://poi.apache.org/' 用于Microsoft Office文档和PDFBox从PDF中提取文本。然而，随着文件变大，提取过程变得缓慢，特别是以下文件。到目前为止我取得的成果： 1. PPTX-45MB-3分钟apx 2.PDF-62MB

相关阅读

如何使用Java从一个文件夹中获取所有文本文件？使用Python中的PDFMiner从PDF文件提取文本？使用Shell脚本从UNIX中的文件名中提取日期使用Java从文本文件中逐列提取数据 Java获取文件夹中所有文件的文件名

相关文章

Python Pandas读取文件 Matlab .m脚本文件与文本文件的数据连接 C++文本文件读写操作详解 Python文件基本操作

相关问答

从文本文件中提取浮动用Java从Office和PDF文件中提取文本用Java从剪贴板中提取所有图像和文本使用Docx4j从Docx文件中读取文本使用nltk（非正则表达式）提取引文/引文

相关工具

NLTK Marlin 中文版本 LCD 使用Shell脚本批量打包生成可配置的.ipa文件 hands-on-nltk-tutorial Jenkins 简体中文插件

相关文档

StackExchange.Redis 中文使用文档 Element UI 组件中文文档 Sphinx 中文使用手册 Python 取证中文教程 MOYE 知心组件库中文文档