python对excel表格处理的一些小功能 功能概览pandas库的一些应用文件读入计算表格中每一行的英文单词数简单用textblob进行自然语言情感分析判断一行中是不是有两列值都与其他行重复(可推广至多列)对表格中的两列自定义函数运算判断表格中某列中是否有空对表格某列中时间格式的修正运用matplotlib画时间序列图,重叠图
做数模模拟赛时学到的一些对表格处理的知识,为了方便自己以后查找,遂写成一篇文章,也希望能帮助大家:)
文件读入
代码如下,每一句后面都有注释!
包括知识点:
1.excel文件的写入和输出;
2.检验表格中是否有NaN,有即删除一行;
3.把表格某列中所有某字母替换成另一字母,所有某数字替换成另一数字;
4.检验表格某列中每一格是Y还是N,是Y就在新列中对应输出1,反之则为0;
5.对表格中多列进行运算
(首先要配置pandas库,如果需要读取和写入文件,要配置xlsxwriter库)
import pandas as pd import xlsxwriter word=pd.read_excel('C:/math/Problem_C_Data/my_pacifier.xlsx') #excel表格文件读入,括号里面写文件地址 word=word.replace(['n','y'],['N','Y']) #把excel表里的所有n替换成N,y替换成Y word=word.dropna(axis=0) #如果表格里有一行中有NaN,即删除这一行 word['m'] = word['a'].str.contains('Y').astype(int) #如果列索引为a的这一列中有Y则对应新列中取值为1 word['n']=word['vine'].str.contains('Y').astype(int) word['n']=word['n'].replace(1,2) #把列索引为n的这一列中所有为1的值转换为2 s = word.apply(lambda word: word['a'] *(word['m']+word['n']) , axis=1) #s列是由表格中其他列的计算得到 word['Si']=(s - s.min())/(s.max() - s.min()) #对s列中的值进行归一化处理 print(word['Si']) //打印索引为Si的列 #print(s) #print(word['n']) word.to_excel('C:/math/Problem_C_Data/SVVp.xlsx',engine='xlsxwriter') //输出excel文件到电脑中 print('finished')
计算表格中每一行的英文单词数
包含知识点:
1.dataframe和字典、列表的转换;
2.如何遍历字典;
3.计算dataframe中每一列的英文句子中的单词数
import pandas as pd import xlsxwriter word=pd.read_excel('C:/math/Problem_C_Data/reviewh.xlsx') #里面只有一列数据 c=[] #列表,用来统计每一行的英文句子的英文单词个数 word=word.set_index(word.index).T.to_dict('list') #把这一列数据按dataframe的索引转换成字典 for key,value in word.items(): #遍历字典 s=str(value) #先把表格里当前行的内容转换成字符串 a=s.split(' ') #把英文句子按空格分割 num_s=len(a) #计算出单词个数 c.append(num_s) #添加到c中 c=pd.DataFrame(c) #由列表转换为dataframe c.to_excel('C:/math/Problem_C_Data/counth.xlsx',engine='xlsxwriter') //输出成新的文件 print('finished')
简单用textblob进行自然语言情感分析
用NLP简单分析表格中每一格的英文句子的情感极性和主观性
import pandas as pd from textblob import TextBlob import xlsxwriter word=pd.read_excel('C:/math/Problem_C_Data/reviewh.xlsx') c=[] word=word.set_index(word.index).T.to_dict('list') for key,value in word.items(): s=str(value) blob = TextBlob(s) #把s转化成textblob对象 blob = blob.sentences #利用TextBlob句子标记化句子 first = blob[0].sentiment #对标记化后的句子进行情感分析(我这里只有一个句子,如果有很多句就添加second=blob[1].sentiment) c.append(first.polarity) #这里只添加了情感极性,如果还需要主观性,就直接用first c=pd.DataFrame(c) c.to_excel('C:/math/Problem_C_Data/NLPh.xlsx',engine='xlsxwriter') print('finished')
判断一行中是不是有两列值都与其他行重复(可推广至多列)
判断表中是不是有在同一行中a列和b列值都相同的情况。如第一行中a=1,b=2,第4行中a=1,b=2,则这两行相同;如果第8行中a=1,b=3,则它和第一行不重复
import pandas as pd import xlsxwriter word=pd.read_excel('C:/math/Problem_C_Data/my_hair_dryer.xlsx') x=word['a'] y=word['b'] z=pd.concat([x,y],axis=1)#对axis=1即把两列按行对齐,即左右拼接成一张表 z['repeat']=z.duplicated() #判断表中有没有重复的,如果有则输出为true ll = z['repeat'].values.tolist() #把这一列转变成列表 if 'True' in ll: #遍历列表,如果里面有true,就说明有重复,就输出yes print('yes') print('finished')
对表格中的两列自定义函数运算
(此处定义的是除法运算)
import pandas as pd import xlsxwriter word=pd.read_excel('C:/math/Problem_C_Data/my_hair_dryer.xlsx') def chu(x,y): if y==0: #分母为0,则不运算,结果直接为0 result=0 else: result=x/y return result s = word.apply(lambda word:chu(word['helpful_votes'],word['total_votes']), axis=1) s.to_excel('C:/math/Problem_C_Data/voteh.xlsx',engine='xlsxwriter') print('finished')
判断表格中某列中是否有空
import numpy as np import pandas as pd import xlsxwriter word=pd.read_excel('C:/math/Problem_C_Data/my_hair_dryer.xlsx') train=word['review_date'] print(train.isnull().any()) #有空即输出true
对表格某列中时间格式的修正
原格式是月/日/年,如1/11/2014,改为标准datetime格式2014-01-11(此处还要舍去后面的00:00:00),方便之后画图,也方便排序等
import pandas as pd import datetime #引入库 #导入数据集 data =pd.read_excel('C:/math/Problem_C_Data/Exx.xlsx') data = data.loc[:, ['review_date']] # 获取数据集中列名为review_date #s= pd.to_datetime(data['review_date'], format='%m/%d/%Y') # 标准化日期,获取时间的“年、月、日” def change_date(s): s = datetime.datetime.strptime(s, "%m/%d/%Y") #这里是原格式的形式,俺是月/日/年,可根据实际情况修改 # 把日期标准化,如把1/11/2014变成2014-01-011 00:00:00 s = str(s) # 上一步把date转化为了时间格式,此处把date转回str格式 return s[:10] #只获取年月日的方法,即“位置10”之前的字符串 #字符串的切片 data['review_date'] = data['review_date'].map(change_date) # 用change_date函数处理列表中date这一列,如把“1/11/2014”转化为“2014-01-11” #data = data.sort_values(by='review_date') # 按date这一列进行排序,根据需要采用 data.to_excel('C:/math/Problem_C_Data/Exxx.xlsx',engine='xlsxwriter') print('finished')
运用matplotlib画时间序列图,重叠图
画时间序列图
(如果要画重叠图,记得x要一样,y可以不一样,然后用plt.plot(x,y0,x,y1,x,y2)即可画出重叠图)
import numpy as np import matplotlib.pyplot as plt import pandas as pd import matplotlib import datetime from statsmodels.graphics.factorplots import interaction_plot import xlsxwriter data=pd.read_excel('C:/math/Problem_C_Data/Exx.xlsx') # # create data s=data['E'] #y轴 e0=s[2907:5043] t=data['review_date'] t0=t[2907:5043] y0 =e0.values.tolist() x0 = pd.to_datetime(t0) #x轴 # # plot plt.plot(x0,y0) plt.gcf().autofmt_xdate() plt.grid(ls = '--') #设置背后的网格线 plt.show() #最后一定要show()
到此这篇关于使用python对excel表格处理的一些小功能的文章就介绍到这了,更多相关python对excel表格处理内容请搜索小牛知识库以前的文章或继续浏览下面的相关文章希望大家以后多多支持小牛知识库!
本文向大家介绍Python使用OpenPyXL处理Excel表格,包括了Python使用OpenPyXL处理Excel表格的使用技巧和注意事项,需要的朋友参考一下 官方文档: http://openpyxl.readthedocs.io/en/default/ OpenPyXL库 --单元格样式设置 单元格样式的控制,依赖openpyxl.style包,其中定义有样式需要的对象,引入样式相关: f
本文向大家介绍使用Python处理Excel表格的简单方法,包括了使用Python处理Excel表格的简单方法的使用技巧和注意事项,需要的朋友参考一下 Excel 中的每一个单元,都会有这些属性:颜色(colors)、number formatting、字体(fonts)、边界(borders)、alignment、模式(patterns) 等等。 xlsxwriter 格式处理,将待添加数据转换
本文向大家介绍Python将多份excel表格整理成一份表格,包括了Python将多份excel表格整理成一份表格的使用技巧和注意事项,需要的朋友参考一下 利用Python将多份excel表格整理成一份表格,抛弃过去逐份打开复制粘贴的方式。 直接附上代码: 以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持呐喊教程。
一些背景: 每个迭代都需要有自己的场景。因此,为什么我不使用简单的for循环和row.count. 我充分意识到场景大纲是制作数据表的一种方式,但我的公司希望看到一种POF,我们可以通过Excel集成大型数据集。 当前的设置适用于小型数据集,但是当我们进入大型excel电子表格时,我不想在大纲上键入第n个数字 cucumber代码: 步骤文件: 实际代码:
本文向大家介绍Python实现EXCEL表格的排序功能示例,包括了Python实现EXCEL表格的排序功能示例的使用技巧和注意事项,需要的朋友参考一下 EXCEL的数值排序功能还是挺强大的,升序、降序,尤其自定义排序,能够对多个字段进行排序工作。 那么,在Python大法中,有没有这样强大的排序功能呢?答案是有的,而且本人觉得Python的排序功能,一点不比EXCEL的差。 同样,我们依然用到的是
本文向大家介绍使用python采集Excel表中某一格数据,包括了使用python采集Excel表中某一格数据的使用技巧和注意事项,需要的朋友参考一下 安装并导入模块 打开命令行窗口,输入: pip install -i https://mirrors.aliyun.com/pypi/simple/ openpyxl 导入: from openpyxl import load_workbook 打