在pandas里,DataFrame是最经常用的数据结构,这里总结生成和添加数据的方法:
①、把其他格式的数据整理到DataFrame中;
②在已有的DataFrame中插入N列或者N行。
1. 字典类型读取到DataFrame(dict to DataFrame)
假如我们在做实验的时候得到的数据是dict类型,为了方便之后的数据统计和计算,我们想把它转换为DataFrame,存在很多写法,这里简单介绍常用的几种:
方法一:直接使用pd.DataFrame(data=test_dict)即可,括号中的data=写不写都可以,具体如下:
test_dict = {'id':[1,2,3,4,5,6],'name':['Alice','Bob','Cindy','Eric','Helen','Grace '],'math':[90,89,99,78,97,93],'english':[89,94,80,94,94,90]} #[1].直接写入参数test_dict test_dict_df = pd.DataFrame(test_dict) #[2].字典型赋值 test_dict_df = pd.DataFrame(data=test_dict)
那么,我们就得到了一个DataFrame,如下:
应该就是这个样子了。
方法二:使用from_dict方法:
test_dict_df = pd.DataFrame.from_dict(test_dict)
结果是一样的,不再重复贴图。
其他方法:如果你的dict变量很小,例如{'id':1,'name':'Alice'},你想直接写到括号里:
test_dict_df = pd.DataFrame({'id':1,'name':'Alice'}) # wrong style
这样是不行的,会报错ValueError: If using all scalar values, you must pass an index,是因为如果你提供的是一个标量,必须还得提供一个索引Index,所以你可以这么写:
test_dict_df = pd.DataFrame({'id':1,'name':'Alice'},pd.Index(range(1)))
后面的可以写多个pd.Index(range(3),就会生成三行一样的,是因为前面的dict型变量只有一组值,如果有多个,后面的Index必须跟前面的数据组数一致,否则会报错:
pd.DataFrame({'id':[1,2],'name':['Alice','Bob']},pd.Index(range(2))) #must be 2 in range function.
关于选择列,有些时候我们只需要选择dict中部分的键当做DataFrame的列,那么我们可以使用columns参数,例如我们只选择'id','name'列:
test_dict_df = pd.DataFrame(data=test_dict,columns=['id','name']) #only choose 'id' and 'name' columns
这里就不在多写了,后续变更颜色添加内容。
2. csv文件构建DataFrame(csv to DataFrame)
我们实验的时候数据一般比较大,而csv文件是文本格式的数据,占用更少的存储,所以一般数据来源是csv文件,从csv文件中如何构建DataFrame呢? txt文件一般也能用这种方法。
方法一:最常用的应该就是pd.read_csv('filename.csv')了,用 sep指定数据的分割方式,默认的是','
df = pd.read_csv('./xxx.csv')
如果csv中没有表头,就要加入head参数
3. 在已有的DataFrame中,增加N列或者N行
加入我们已经有了一个DataFrame,如下图:
3.1 添加列
此时我们又有一门新的课physics,我们需要为每个人添加这门课的分数,按照Index的顺序,我们可以使用insert方法,如下:
new_columns = [92,94,89,77,87,91] test_dict_df.insert(2,'pyhsics',new_columns) #test_dict_df.insert(2,'pyhsics',new_columns,allow_duplicates=True)
此时,就得到了添加好的DataFrame,需要注意的是DataFrame默认不允许添加重复的列,但是在insert函数中有参数allow_duplicates=True,设置为True后,就可以添加重复的列了,列名也是重复的:
3.2 添加行
此时我们又来了一位新的同学Iric,需要在DataFrame中添加这个同学的信息,我们可以使用loc方法:
new_line = [7,'Iric',99] test_dict_df.loc[6]= new_line
但是十分注意的是,这样实际是改的操作,如果loc[index]中的index已经存在,则新的值会覆盖之前的值。
当然也可以把这些新的数据构建为一个新的DataFrame,然后两个DataFrame拼起来。可以用append方法,不过不太会用,提供一种方法:
test_dict_df.append(pd.DataFrame([new_line],columns=['id','name','physics']))
本想一口气把CURD全写完,没想到写到这里就好累。。。其他后续新开篇章在写吧。
相关代码:(https://github.com/dataSnail/blogCode/blob/master/python_curd/python_curd_create.ipynb)(在DataFrame中删除N列或者N行)(在DataFrame中查询某N列或者某N行)(在DataFrame中修改数据)
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持小牛知识库。
本文向大家介绍android创建optionsmenu的方法,包括了android创建optionsmenu的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了android创建optionsmenu的方法。分享给大家供大家参考。具体实现方法如下: 一、用xml配置 在res文件夹下新建menu文件夹,menu下新建options_menu.xml文件,加入代码 1、 2、activit
问题内容: 我在为自己创建的类编写方法时遇到了麻烦。此类旨在在TreeSet中使用,因此,它实现Comparable。该类具有以下变量: 这是该方法的实现。我希望按其成本来组织这些Node结构,因此,返回简单减法的结果。 我还实现了一种方法。 说了这么多,我有几个问题: 由于实施了新方法,因此应该实施新方法吗? 如何使用这些变量实施新的hashCode ?(请注意,Matrix类型的变量矩阵已实现
1 直接创建 dict = {'name':'earth', 'port':'80'} 2 工厂方法 items=[('name','earth'),('port','80')] dict2=dict(items) dict1=dict((['name','earth'],['port','80'])) 3 fromkeys()方法 dict1={}.fromkeys(('x','y'),-1
Q.如果您在未链接到接口的抽象类中创建抽象方法,您是否仍然遵循编程到接口的原则? 我已经为我创建的所有UI类使用了接口;但是,考虑到接口的原因,我看不到与我想要创建的抽象方法和已经存在的接口的直接关联。 通常,我只会创建抽象方法并完成;但是,我想知道我是否违反了程序到接口的设计原则。 问:我应该为此创建另一个接口,还是继续使用抽象方法? 注意:这不是一个接口与抽象类的问题。 注意:我的基类更多的是
问题内容: 我正在为学校进度设计基于文本的冒险游戏。我将每个“级别”设置为一个类,并将每个可探索区域(节点)设置为相应类中的一个方法。 困扰我的是从一个节点移动到另一个节点的代码。由于每个节点最多连接四个其他节点,因此我必须在每种方法中重复一个极为相似的代码块。 我更愿意做的是在每个节点的开头包含一个方法数组,如下所示: 然后将该数组发送到通用方法,然后将播放器发送到正确的节点: 我简化了代码,但
我已经尝试阅读了异步方法,现在正尝试创建自己的异步方法。该方法是返回错误日志列表的webservice调用。我不确定我是否理解正确,所以我想我应该分享我的代码,看看我是否应该做些不同的事情。 所有我想要的代码做的是返回一个错误日志列表通过调用方法GetAllErrorLogs(),这是一个同步的方法。因为获取所有错误日志可能需要一秒钟的时间,所以我希望在调用GetAllErrorLogs()方法后