当前位置: 首页 > 知识库问答 >
问题:

计算每个文档的字符数

姜俊友
2023-03-14

我正在处理一个文档(熊猫数据框),其中包含数千行文本消息(dtype=str)及其分类(垃圾邮件或非垃圾邮件):

css prettyprint-override">  -
                                         text    spam
0 Go until jurong point, crazy.. Available only    0
1 Ok lar... Joking wif u oni...                    0
2 Free entry in 2 a wkly comp to win FA Cup fina   1
3 U dun say so early hor... U c already then say   0
4 Nah I don't think he goes to usf, he lives aro   0
5 FreeMsg Hey there darling it's been 3 week's n   1
6 WINNER!! As a valued network customer you have   1

我想计算每条消息(即每行)的字符数,将它们分成一个单独的列(“长度”),将它们的总数相加,然后除以len(文档),得到文档的平均长度(字符数)。在存在非字符空间的情况下,获取此属性的最有效方法是什么?我是否只对整个数据帧中的每一行条目应用len()?

非常感谢。

共有1个答案

任长卿
2023-03-14

试试这个

for row in ('Insert/file/path/here'):
        print (len(row))
 类似资料:
  • 本文向大家介绍C++计算每个字符出现的次数,包括了C++计算每个字符出现的次数的使用技巧和注意事项,需要的朋友参考一下 本文实例为大家分享了C++计算每个字符出现的次数的实现代码,供大家参考,具体内容如下 以上就是本文的全部内容,希望对大家的学习有所帮助。

  • 问题内容: 这是来自pyschools的问题。 我确实做对了,但我猜测会有一个更简单的方法。这是最简单的方法吗? 看起来应该像这样: 问题答案: 在2.7+中: 较早的版本(2.5或更高版本,到目前为止):

  • 我有一个word文件,我想数一下里面有多少页。 已使用Docx4Java创建该文件。 以前有人这么做过吗? 谢谢!

  • 问题内容: 我试图在一个数据框中创建一个新列,其中包含相应行的字数统计。我在寻找的是单词的总数,而不是每个不同单词的出现频率。我认为会有一个简单/快速的方法来做到这一点共同的任务,但周围的Googling和阅读SO职位)我卡住了。我已经尝试了在链接的SO帖子中提出的解决方案,但又遇到了很多属性错误。 结果是 和 结果是 问题答案: + 适用于任何非数字列。 如果您的单词是用单空格分隔的,则只需将空

  • 给定 我想使用Java8流像下面这样打印 。 使用以下内容: 但不起作用。

  • 我一直在试图弄清楚如何计算句子每个单词中的元音和字符。例如 在句子 < code>hello : 5个字符,2个元音 <代码>有:5个字符,2个元音 。我见过完整句子做同样事情的代码。但不是一个字一个字地。 下面是我一直在做的编码 输入将全部。我很难弄清楚这一点。 在运行代码时,我没有得到元音计数。我能把句子分开。但元音计数没有发生。