当前位置：首页 > 面试题库 >

NLTK中的实际字数

富涛

2023-03-14

问题内容：

NLTK书中有几个字数示例，但实际上它们不是字数而是令牌数。例如，第1章“计数词汇”说以下内容给出了单词计数：

text = nltk.Text(tokens)
len(text)

但是，事实并非如此-它给出了单词和标点计数。如何获得真实的字数（忽略标点符号）？

同样，如何获得一个单词的平均字符数？显而易见的答案是：

word_average_length =(len(string_of_text)/len(text))

但是，这将因为以下原因而关闭：

len（string_of_text）是一个字符数，包括空格
len（text）是令牌计数，不包括空格，但包括标点符号（不是单词）。

我在这里想念什么吗？这必须是非常常见的NLP任务…

问题答案：

删除标点符号

使用正则表达式过滤掉标点符号

import re
from collections import Counter

>>> text = ['this', 'is', 'a', 'sentence', '.']
>>> nonPunct = re.compile('.*[A-Za-z0-9].*')  # must contain a letter or digit
>>> filtered = [w for w in text if nonPunct.match(w)]
>>> counts = Counter(filtered)
>>> counts
Counter({'this': 1, 'a': 1, 'is': 1, 'sentence': 1})

平均字符数

对每个单词的长度求和。除以字数。

>>> float(sum(map(len, filtered))) / len(filtered)
3.75

或者，您可以利用已经进行的计数来防止重新计算。这会将单词的长度乘以我们看到它的次数，然后将所有结果相加。

>>> float(sum(len(w)*c for w,c in counts.iteritems())) / len(filtered)
3.75

类似资料：

NLTK中的实词计数

NLTK书中有几个单词计数的例子，但实际上它们不是单词计数，而是标记计数。例如，第1章“计算词汇”中说，下面给出了一个单词计数：然而，它没有-它给出了一个单词和标点符号计数。你怎样才能得到一个真正的字数（忽略标点符号）？同样，如何获得一个单词中的平均字符数？显而易见的答案是：但是，这将关闭，因为： len（文本的字符串）是一个字符计数，包括空格我是不是遗漏了什么？这一定是一个非常常见的NL
获取存储的实际数字

我有一个项目，使用泰勒级数创建一个科学计算器。此外，我正在分析IEEE 754标准浮点系统的数字。在我的计算器中，用户选择要单精度还是双精度：我使用浮点和双变量，然后按照ieee 754规范分析数字。如果用户想要双精度，分析如下：这给了我 > 这个数字是以二进制格式存储在pc内存中的实际数字吗？如果不是，我有没有办法得到存储的数字的真实值？还有，为什么会发生这种情况？它只打印< cod
NLTK

NLTK 会被自然地看作是具有栈结构的一系列层，这些层构建于彼此基础之上。那些熟悉人工语言（比如 Python）的文法和解析的读者来说，理解自然语言模型中类似的 —— 但更深奥的 —— 层不会有太大困难。尽管 NLTK 附带了很多已经预处理（通常是手工地）到不同程度的全集，但是概念上每一层都是依赖于相邻的更低层次的处理。首先是断词；然后是为单词加上标签；然后将成组的单词解析为语法元素，比如名词
C中的实际毫秒

在Java中像< code > system . current time millis()这样的C程序中，有可能得到实际的毫秒数吗？我知道< code>time()，但是我认为它不足以精确地测量短时间，不是吗？
NLTK中没有pos_tag的ne_chunk

问题内容：我正在尝试在nltk中使用ne_chunk和pos_tag对句子进行分块。结果如下：我的问题是，是否可以不包括pos_tag（如上面的NNP）而仅包括Tree’GPE’，’PERSON’？“ GPE”是什么意思？提前致谢问题答案：命名的实体分块器将为您提供包含分块和标签的树。您不能更改它，但是可以取出标签。从您的开始：如果只需要块，则忽略上面的子句。您可以修改代码以任意方式
基于NLTK的熊猫文字处理

问题内容：使用nltk时标点和数字小写不起作用。我的密码样本输入预期产量问题答案：您的功能缓慢且不完整。首先，关于问题- 您不会降低数据的大小写。您没有正确摆脱数字和标点符号。您没有返回字符串（您应该使用来加入列表并返回它）此外，具有文本处理功能的列表理解是引入可读性问题的主要方法，更不用说可能的冗余了（对于出现的每个条件，您可以多次调用函数。接下来，您的功能有两个明显的低

相关阅读

将转义的Unicode字符转换回实际字符如何在NLTK中标记字符串语句？在NLTK中使用PunktSentenceTokenizer JavaScript实现的GBK、UTF8字符串实际长度计算函数实际的转义字符串和PDO [重复]

相关文章

字节国际电商后端开发实习一面京东Young后开(实际捞的是数开)字节国际化音乐产品运营（数据方向）实习中软国际边无际前端实习

相关问答

对于c#中的易失性字段，实际保证的是什么？哪些字符实际上能够导致MySQL中的SQL注入？Spring MVC中模型的实际实现是什么如何在Android中实现数学公式的实际显示在现代CPU中，缓存的字节存储实际上比字存储慢吗？

相关工具

NLTK hands-on-nltk-tutorial 星际译王 Dreamchess 国际象棋数字绘

相关文档

Python 和 NLTK 自然语言处理 Java 国际化中文教程 Gradle 实战中文版基于 Node.js 的 HTTPS MITM 中间人代理的原理和实现如何实现自己的 jQuery