当前位置：首页 > 面试题库 >

如何在NLTK中标记字符串语句？

姜彬郁

2023-03-14

问题内容：

我正在使用nltk，因此我想创建自己的自定义文本，就像nltk.books上的默认文本一样。但是，我只是想起像

my_text = ['This', 'is', 'my', 'text']

我想发现任何输入“文本”的方式：

my_text = "This is my text, this is a nice way to input text."

python或nltk的哪种方法允许我执行此操作。更重要的是，我如何消除标点符号？

问题答案：

这实际上是在nltk.org的主页上：

>>> import nltk
>>> sentence = """At eight o'clock on Thursday morning
... Arthur didn't feel very good."""
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['At', 'eight', "o'clock", 'on', 'Thursday', 'morning',
'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']

类似资料：

Transact-SQL：如何标记字符串？

问题内容：我希望能够对文本框中的输入字符串进行标记化以进行查询。示例：用户在文本框中输入“ abc xyz 123”。我想做这个：谢谢。问题答案：使用一个字符串拆分函数，您可能会得到如下所示的内容：
Bash：如何标记字符串变量？

问题内容：如果我有一个字符串变量，谁的值是如何使用空格作为分隔符来对此进行标记？我会用吗？问题答案：使用外壳程序对未加引号的变量的自动标记化：如果要更改定界符，则可以设置变量，该变量代表内部字段分隔符。的默认值是（空格，制表，换行）。（请注意，在第二个示例中，我在第二行周围添加了括号。这创建了一个子shell，因此对的更改不会持续。您通常不想永久更改，因为它可能会对毫无疑问的shell命
如何调整NLTK句子标记器

问题内容：我正在使用NLTK来分析一些经典文本，并且遇到麻烦按句子标记文本的麻烦。例如，这是我从 Moby Dick 获得的摘录的内容：考虑到梅尔维尔（Melville）的语法有些陈旧，我不希望在这里达到完美，但是NLTK应该能够处理终端双引号和标题，例如“ Mrs”。但是，由于令牌生成器是无监督训练算法的结果，所以我不知道该如何进行修补。有人建议使用更好的句子标记器吗？我更喜欢可以破解的简
如何使用Lucene Analyzer标记字符串？

问题内容：有没有一种简单的方法可以使用Lucene的任何子类来解析/标记a ？就像是：问题答案：据我所知，您必须自己编写循环。这样的事情（直接取自我的源代码树）：
如何读取标记下的字符串

我在
字符串文本中标记的语法错误

我在几乎所有的系统上都会看到“令牌语法错误，请删除这些令牌”。出来系统第一个实例后的println文本。出来普林顿。我不知道这意味着什么，也不知道如何解决？我是一个非常新的开始，所以这个代码中可能有多个错误。我还得到了“令牌上的语法错误”“Double is”“无效的AssignmentOperator”“和”“squared is”“，以及无效的AssignmentOperator”错误。这是一

如何在NLTK中标记字符串语句？

相关阅读

相关文章

相关问答

相关工具

相关文档