当前位置: 首页 > 面试题库 >

大熊猫的性能差异read_table,read_csv,from_csv和read_excel?

拓拔欣嘉
2023-03-14
问题内容

我倾向于将.csv文件导入熊猫,但有时我可能会获取其他格式的数据来制作DataFrame对象。

今天,我只是发现了有关read_table为其他格式的“通用”的进口商,如果有阅读的.csv文件,例如,在大熊猫的各种方法之间显著的性能差异纳闷read_tablefrom_csvread_excel

  1. 这些其他方法的性能是否比以下更好read_csv
  2. read_csv远远不同的from_csv创建DataFrame

问题答案:
  1. read_tableread_csvsep=','被替换sep='\t',它们围绕着相同功能的两个薄包装纸因此性能将是相同的。 read_excel使用该xlrd程序包将xls和xlsx文件读入DataFrame,它不处理csv文件。
  2. from_csv打电话read_table,所以没有。


 类似资料:
  • 我正在读取一个包含多个datetime列的csv文件。我需要在读取文件时设置数据类型,但datetimes似乎是个问题。例如: 运行时出现错误: 不理解数据类型"datetime" 通过pandas在事实之后转换列。to_datetime()不是一个选项,我不知道哪些列将成为datetime对象。这些信息可以更改,并且来自于通知我的数据类型列表的任何信息。 或者,我尝试用numpy.genfrom

  • 问题内容: 打电话时 我得到: /Users/josh/anaconda/envs/py27/lib/python2.7/site- packages/pandas/io/parsers.py:1130:DtypeWarning:列(4,5,7,16)具有混合类型。在导入时指定dtype选项,或将low_memory = False设置为false。 为什么选项与关联,为什么使它有助于解决此问题?

  • 问题内容: 我将Python 3.4与IPython结合使用,并具有以下代码。我无法从给定的URL读取csv文件: 我有以下错误 “预期的文件路径名或类似文件的对象,得到了类型” 我怎样才能解决这个问题? 问题答案: 更新资料 现在,您可以从熊猫直接传递URL。 正如错误所暗示的,需要一个类似文件的对象作为第一个参数。 如果要从字符串读取csv,可以使用(Python 3.x)或(Python 2

  • 和? 到目前为止,这是我发现的,请评论我的理解是否完整和准确: > 只能使用列(加上行索引),并且它在语义上适合于数据库风格的操作。可以与任一轴一起使用,只使用索引,并且提供了添加一个分级索引。 顺便说一下,这允许以下冗余:两者都可以使用行索引组合两个数据帧。 只提供了 (Pandas擅长处理数据分析中非常广泛的用例。探索文档以找出执行特定任务的最佳方式可能有点令人生畏。)

  • 我有一个63 MB的csv文件和患者的血液测试。我无法获得DataFrame。它说: 类型警告:列(5,12,20,21,22,23,24,25,26,30,32,35,36,37,38,39,40,41,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64请在导入时指定dtype选项,或者设置low_memory=Fa

  • 我试图在pandas中使用从FTP服务器读取压缩文件。zip文件只包含一个文件,这是必需的。 这是我的密码: 我得到这个错误: 我在pandas 18.1和19.0中都遇到了这个错误。我是否遗漏了什么,或者这可能是一个错误?

  • 问题内容: Pandas确实很棒,但令我惊讶的是,从Pandas.DataFrame检索值的效率低下。在下面的玩具示例中,即使DataFrame.iloc方法也比字典慢100倍以上。 问题:这里的教训仅仅是字典是查找价值的更好方法吗?是的,我知道那正是他们的目的。但是我只是想知道是否缺少有关DataFrame查找性能的信息。 我意识到这个问题比“提问”更“有趣”,但是我会接受一个提供洞察力或观点的

  • 我有一个数据帧,如: 所以我想通过两个“for循环”添加一些列,如: 新的类似数据帧的图片: 我的代码不起作用: 如何编写代码来获得像第二张图片这样的数据帧?