当前位置: 首页 > 面试题库 >

在NLTK中将段落标记为句子,然后标记为单词

越星晖
2023-03-14
问题内容

我试图将整个段落输入到我的文字处理器中,然后先分成句子,然后再分成单词。

我尝试了以下代码,但它不起作用,

    #text is the paragraph input
    sent_text = sent_tokenize(text)
    tokenized_text = word_tokenize(sent_text.split)
    tagged = nltk.pos_tag(tokenized_text)
    print(tagged)

但是,这不起作用,并给我错误。那么,如何将段落标记为句子,然后再标记为单词?

一个示例段落:

这东西似乎使那只黑褐色的小狗感到吃惊和震惊,使他伤心。
他绝望地沉在孩子的脚下。当重击一声再加上幼稚的训诫时,他转过身来,用独特的方式握住了爪子。同时,他用耳朵和眼睛向孩子祈祷。

警告:这只是互联网上的随机文本,我没有上述内容。


问题答案:

您可能打算循环sent_text

import nltk

sent_text = nltk.sent_tokenize(text) # this gives us a list of sentences
# now loop over each sentence and tokenize it separately
for sentence in sent_text:
    tokenized_text = nltk.word_tokenize(sentence)
    tagged = nltk.pos_tag(tokenized_text)
    print(tagged)


 类似资料:
  • 这些指令(标识符)创建简短的段落,可用于内部信息的单位以及普通的文本: .. note:: toctree 指令(标识符)是描述在 TOC树 ,它生成子文件的内容表。对于本地内容表,可以用标准的reST contents directive。 词汇表 .. glossary:: 特别标记是用于显示 Special markup is available for displaying the pro

  • 问题内容: 我正在使用NLTK来分析一些经典文本,并且遇到麻烦按句子标记文本的麻烦。例如,这是我从 Moby Dick 获得的摘录的内容: 考虑到梅尔维尔(Melville)的语法有些陈旧,我不希望在这里达到完美,但是NLTK应该能够处理终端双引号和标题,例如“ Mrs”。但是,由于令牌生成器是无监督训练算法的结果,所以我不知道该如何进行修补。 有人建议使用更好的句子标记器吗?我更喜欢可以破解的简

  • 这个指令可以创建简单的段落,也可以如普通文本一样使用内部信息单位: .. note:: 显示用户使用API时的注意事项. 指令的内容应该使用完整的语句及标点符号. 例如: .. note:: 该功能不适于发送垃圾邮件. .. warning:: 显示用户使用API时的注意事项. 指令包含完整的句子和标点符号. 不同于 note ,它一般显示的是信息安全方面的注意事项. .. version

  • 问题内容: 我正在使用nltk,因此我想创建自己的自定义文本,就像nltk.books上的默认文本一样。但是,我只是想起像 我想发现任何输入“文本”的方式: python或nltk的哪种方法允许我执行此操作。更重要的是,我如何消除标点符号? 问题答案: 这实际上是在nltk.org的主页上:

  • 本文向大家介绍在python中使用NLTK标记文本,包括了在python中使用NLTK标记文本的使用技巧和注意事项,需要的朋友参考一下 给定一个字符序列和一个定义的文档单元,令牌化就是将其切成碎片(称为令牌)的任务,也许同时丢掉某些字符(例如标点符号)。在nltk和python的上下文中,这仅仅是将每个标记放入列表的过程,因此我们可以遍历一个标记,而不是一次遍历每个字母。 例如,给定输入字符串-

  • 问题内容: 我需要在内存中短时间存储用户密码。我该怎么做却又不会在核心转储或回溯中意外泄露此类信息?有没有一种方法可以将值标记为“敏感”,因此调试器不会将其保存在任何地方? 问题答案: 编辑 我已经提出了使用ctypes(反过来使用C)零内存的解决方案。 我不保证此代码的安全性。经过测试可在x86和CPython 2.6.2上运行。更长的文章在这里。 在Python中解密和加密将无法进行。字符串和