当前位置: 首页 > 工具软件 > Walden > 使用案例 >

Walden单词词频统计

齐兴运
2023-12-01

原版

import collections #创建一个新的容器
f = open('D:/Walden.txt', 'r').read() #打开本地文本文件,r表示以读取方式打开
f=f.replace(',','').replace('.','').replace('"','').replace(':','') #将所有标点替换成空格
f = f.split() #取出所有单词
f = collections.Counter(f) #在容器中统计每个单词的出现词频
print(f)

改良版

#打开并读取函数
file=open(r'D:\Walden.txt', 'r')
lines=file.readlines()
lines
words=[]

for line in lines:
    tmp_list=line.split(" ")#print((line.split(""))
    for word in tmp_list:
        words.append(word)#words.append(tmp_list)
#对word中每个元素计算他出现的个数
#把统计结果保存到字典中,字典的key是单词,value是单词出现的次数
word_count={}
word_set=set(words)
for word in word_set:
    count_nun=words.count(word)
    word_count[word]=count_num
#对word_count字典进行排序,按照出现的次数(value)进行降序排序
sorted(word_count.items(),key=lambda item:item[1],reverse=True)

 类似资料: