我试图将整个段落输入到我的文字处理器中,然后先分成句子,然后再分成单词。
我尝试了以下代码,但它不起作用,
#text is the paragraph input
sent_text = sent_tokenize(text)
tokenized_text = word_tokenize(sent_text.split)
tagged = nltk.pos_tag(tokenized_text)
print(tagged)
但是,这不起作用,并给我错误。那么,如何将段落标记为句子,然后再标记为单词?
一个示例段落:
这东西似乎使那只黑褐色的小狗感到吃惊和震惊,使他伤心。
他绝望地沉在孩子的脚下。当重击一声再加上幼稚的训诫时,他转过身来,用独特的方式握住了爪子。同时,他用耳朵和眼睛向孩子祈祷。
警告:这只是互联网上的随机文本,我没有上述内容。
您可能打算循环sent_text
:
import nltk
sent_text = nltk.sent_tokenize(text) # this gives us a list of sentences
# now loop over each sentence and tokenize it separately
for sentence in sent_text:
tokenized_text = nltk.word_tokenize(sentence)
tagged = nltk.pos_tag(tokenized_text)
print(tagged)
这些指令(标识符)创建简短的段落,可用于内部信息的单位以及普通的文本: .. note:: toctree 指令(标识符)是描述在 TOC树 ,它生成子文件的内容表。对于本地内容表,可以用标准的reST contents directive。 词汇表 .. glossary:: 特别标记是用于显示 Special markup is available for displaying the pro
问题内容: 我正在使用NLTK来分析一些经典文本,并且遇到麻烦按句子标记文本的麻烦。例如,这是我从 Moby Dick 获得的摘录的内容: 考虑到梅尔维尔(Melville)的语法有些陈旧,我不希望在这里达到完美,但是NLTK应该能够处理终端双引号和标题,例如“ Mrs”。但是,由于令牌生成器是无监督训练算法的结果,所以我不知道该如何进行修补。 有人建议使用更好的句子标记器吗?我更喜欢可以破解的简
这个指令可以创建简单的段落,也可以如普通文本一样使用内部信息单位: .. note:: 显示用户使用API时的注意事项. 指令的内容应该使用完整的语句及标点符号. 例如: .. note:: 该功能不适于发送垃圾邮件. .. warning:: 显示用户使用API时的注意事项. 指令包含完整的句子和标点符号. 不同于 note ,它一般显示的是信息安全方面的注意事项. .. version
问题内容: 我正在使用nltk,因此我想创建自己的自定义文本,就像nltk.books上的默认文本一样。但是,我只是想起像 我想发现任何输入“文本”的方式: python或nltk的哪种方法允许我执行此操作。更重要的是,我如何消除标点符号? 问题答案: 这实际上是在nltk.org的主页上:
本文向大家介绍在python中使用NLTK标记文本,包括了在python中使用NLTK标记文本的使用技巧和注意事项,需要的朋友参考一下 给定一个字符序列和一个定义的文档单元,令牌化就是将其切成碎片(称为令牌)的任务,也许同时丢掉某些字符(例如标点符号)。在nltk和python的上下文中,这仅仅是将每个标记放入列表的过程,因此我们可以遍历一个标记,而不是一次遍历每个字母。 例如,给定输入字符串-
我需要处理通常由Oracle SQLPlus在应用程序中处理的脚本的内容。 脚本包含以下块: 我需要单独执行各个块。 是否有一种合理简单的方法来标记JavaScript中的语句,或者我需要一个完全理解SQLPlus语法的成熟标记器?