我试图用NLTK从句子中提取介词短语。有没有一种方法可以让我自动做到这一点(例如,向函数输入一个句子,然后返回它的介词短语)?
这里的例子似乎要求你先从语法开始,然后才能得到解析树。我能自动获取语法并使用它来获取解析树吗?
显然,我可以标记一个句子,挑出介词和后面的名词,但当介词补语是复合词时,这很复杂。
我知道答案已经被接受了,但是浅解析器将以最小的语法结构返回NLP块。这个相当线性的结果可能更容易使用。这是CLiPS解析器的在线演示:http://www.clips.ua.ac.be/cgi-bin/webdemo/MBSP-instant-webdemo.cgi
这里有一个例子:
约翰把书给了玛丽
[PNP]易于提取。
你真正想做的是用一个强大的统计解析器(比如斯坦福大学)完全解析你的句子,然后寻找标有PP的成分:
(ROOT
(S
(NP (NNP John))
(VP (VBZ lives)
(PP (IN in)
(NP (DT a) (NN house)))
(PP (IN by)
(NP (DT the) (NN sea))))))
我不确定NLTK的解析能力,以及如果这个特性存在,解析的准确性如何,但从Python调用外部解析器,然后处理输出并不是什么大问题。使用解析器将为您节省大量时间和精力(因为解析器会处理所有事情),并且是完成这项工作的唯一可靠方法。
我是新的Python和nltk。我已经将代码从https://gist.github.com/alexbowe/879414转换为下面给定的代码,使其运行于许多文档/文本块。但我得到了以下错误 有人能帮我解决这个问题吗。我必须从数以百万计的产品评论中提取名词短语。我使用了使用Java的Standford NLP工具包,但速度非常慢,所以我认为在python中使用nltk会更好。如果有更好的解决方案
问题内容: 我正在尝试从文本中提取所有包含指定单词的句子。 但它正在回报我: 代替 : 有什么帮助吗? 问题答案:
我想为我的搜索引擎从数据库中提取一个基本的同义词列表。这包括通常拼写的名字,如Shaun vs.Shawn,Muhammad的不同变体,命名实体的首字母缩写,如United Nations(UN)或SARS(Severe acute respiratory syndrome)。 在提取之后,这个同义词列表将被放置在服务器中,并以这样的方式存储--相关术语/同义词的字符串。 示例 我使用了jaws
看到截图了吗 从图像解析器中可以看到,它返回NP,VP,PP,NP。我希望能够访问不同深度的所有短语。例如,in depth=1有两个短语NP和VP,in depth=2有一些其他短语,in depth=3有一些其他短语。如何使用python访问属于depth=n的短语?
我试图在java中找到一个正则表达式,它可以提取句子中的连续词对,如下面的示例所示。 输入:word1 word2 word3 word4。。。。 输出: 文字1文字2 等... 知道怎么做吗?
如果案文是: 我想要一个句子(句子边界是句号,后面是空格),其中有“他”和“米兰”,即第三个句子(顺序不重要。任何同时有这两个词的句子都是必需的) 我尝试了上面的regex pattrn和其他许多方法 但是它在'milan'之后提取部分句子,或者从第一个'he'开始提取两个句子 请建议使用regex或Java中的任何其他方法完成此任务的方法 (我正致力于提取2个实体之间的关系模式:在这种情况下,关