当前位置：首页 > 面试题库 >

在NLTK中将段落标记为句子，然后标记为单词

越星晖

2023-03-14

问题内容：

我试图将整个段落输入到我的文字处理器中，然后先分成句子，然后再分成单词。

我尝试了以下代码，但它不起作用，

    #text is the paragraph input
    sent_text = sent_tokenize(text)
    tokenized_text = word_tokenize(sent_text.split)
    tagged = nltk.pos_tag(tokenized_text)
    print(tagged)

但是，这不起作用，并给我错误。那么，如何将段落标记为句子，然后再标记为单词？

一个示例段落：

这东西似乎使那只黑褐色的小狗感到吃惊和震惊，使他伤心。
他绝望地沉在孩子的脚下。当重击一声再加上幼稚的训诫时，他转过身来，用独特的方式握住了爪子。同时，他用耳朵和眼睛向孩子祈祷。

警告：这只是互联网上的随机文本，我没有上述内容。

问题答案：

您可能打算循环sent_text：

import nltk

sent_text = nltk.sent_tokenize(text) # this gives us a list of sentences
# now loop over each sentence and tokenize it separately
for sentence in sent_text:
    tokenized_text = nltk.word_tokenize(sentence)
    tagged = nltk.pos_tag(tokenized_text)
    print(tagged)

类似资料：

段落级标记

这些指令（标识符）创建简短的段落，可用于内部信息的单位以及普通的文本： .. note:: toctree 指令（标识符）是描述在 TOC树，它生成子文件的内容表。对于本地内容表，可以用标准的reST contents directive。词汇表 .. glossary:: 特别标记是用于显示 Special markup is available for displaying the pro
如何调整NLTK句子标记器

问题内容：我正在使用NLTK来分析一些经典文本，并且遇到麻烦按句子标记文本的麻烦。例如，这是我从 Moby Dick 获得的摘录的内容：考虑到梅尔维尔（Melville）的语法有些陈旧，我不希望在这里达到完美，但是NLTK应该能够处理终端双引号和标题，例如“ Mrs”。但是，由于令牌生成器是无监督训练算法的结果，所以我不知道该如何进行修补。有人建议使用更好的句子标记器吗？我更喜欢可以破解的简
段落级别的标记

这个指令可以创建简单的段落，也可以如普通文本一样使用内部信息单位: .. note:: 显示用户使用API时的注意事项. 指令的内容应该使用完整的语句及标点符号. 例如: .. note:: 该功能不适于发送垃圾邮件. .. warning:: 显示用户使用API时的注意事项. 指令包含完整的句子和标点符号. 不同于 note ，它一般显示的是信息安全方面的注意事项. .. version
如何在NLTK中标记字符串语句？

问题内容：我正在使用nltk，因此我想创建自己的自定义文本，就像nltk.books上的默认文本一样。但是，我只是想起像我想发现任何输入“文本”的方式： python或nltk的哪种方法允许我执行此操作。更重要的是，我如何消除标点符号？问题答案：这实际上是在nltk.org的主页上：
在python中使用NLTK标记文本

本文向大家介绍在python中使用NLTK标记文本，包括了在python中使用NLTK标记文本的使用技巧和注意事项，需要的朋友参考一下给定一个字符序列和一个定义的文档单元，令牌化就是将其切成碎片（称为令牌）的任务，也许同时丢掉某些字符（例如标点符号）。在nltk和python的上下文中，这仅仅是将每个标记放入列表的过程，因此我们可以遍历一个标记，而不是一次遍历每个字母。例如，给定输入字符串-
如何将Oracle SQLPlus脚本标记为JavaScript中的单个语句

我需要处理通常由Oracle SQLPlus在应用程序中处理的脚本的内容。脚本包含以下块：我需要单独执行各个块。是否有一种合理简单的方法来标记JavaScript中的语句，或者我需要一个完全理解SQLPlus语法的成熟标记器？

相关阅读

使用nltk自定义标记 Python-正则表达式，用于将文本拆分为句子（句子加标记）在JUnit中将单元测试标记为预期的失败 NLTK使用语料库标记西班牙语单词将段落元素放在HTML5的标题标记内（H1内的P）是否有效？

相关文章

JSF HTML5友好标记 JPA标准GROUP BY子句 JPA标准ORDER BY子句内存冷热标记 - 华为OD统一考试(C卷)使用标记的循环队列

相关问答

单击标记时agm标记图标更改 JOOQ：将列标记为“已弃用”？无法将DEFAULT_STREAMS_CONFIG_BEAN_NAME标记为主要 Swagger UI将参数标记为组我可以从javascript中将字段标记为无效吗？

相关工具

语言岛智能记单词 NLTK 记帐App 马克笔记思源笔记

相关文档

Python 和 NLTK 自然语言处理 JavaScript 闯关记 JackySummer 技术学习记录、随笔、总结、杂记 Debian 学习笔记 ES6 学习笔记