当前位置: 首页 > 知识库问答 >
问题:

将大型数据集加载到Pandas Python中

柳刚豪
2023-03-14

我想从InstaCart https://www.InstaCart.com/datasets/grocery-shopping-2017加载大型.csv(3.4百万行,20.6万用户)开源数据集

基本上,我在将orders.csv加载到Pandas数据帧中时遇到了麻烦。我想学习将大文件加载到Pandas/Python中的最佳实践。

共有1个答案

乜飞航
2023-03-14

最好的选择是分块读取数据,而不是将整个文件加载到内存中。

幸运的是,read_csv方法接受chunksize参数。

for chunk in pd.read_csv(file.csv, chunksize=somesize):
    process(chunk)

注意:通过将chunksize指定为read_csvread_table,返回值将是TextFileReader类型的iterable对象:

    null
 类似资料:
  • 问题内容: 我正在尝试设计一种无需分页就可以将大量数据(最多1000行)加载到页面中的方法。这方面的第一个障碍是以并行咬大小块查询数据库,这是我在如何使用AngularJS进行顺序RestWeb服务调用的解决方案的帮助下完成的。 但是,我在实施时遇到了两个问题: 每个返回的对象都将传递到一个数组中,然后该数组本身将作为Angular用来绑定的数组返回。即[[{{键:值,键:值,键:值},{键:值,

  • 当我将这个DBpedia(2015-10,嗯,大约10亿个三倍)加载到GraphDB 9.1.1中时,CPU负载在大约1300万个三倍和空闲之后下降到0%。在我手动终止之前,进程不会终止。 与通过Xmx CMD选项分配给java的512GB相比,该机器有足够的磁盘空间和足够多的RAM。 我试图加载的文件提供在这里:https://hobbitdata.informatik.uni-leipzig.

  • 问题内容: 我想知道是否有人对我即将从事的工作有任何经验。我有几个csv文件,它们的大小都在一个GB左右,我需要将它们加载到oracle数据库中。虽然加载后我的大部分工作都是只读的,但我仍需要不时加载更新。基本上,我只需要一个很好的工具即可一次将多行数据加载到数据库中。 到目前为止,这是我发现的内容: 我可以使用SQL Loader来完成很多工作 我可以使用批量插入命令 某种批量插入。 以某种方式

  • 此外,特别是对于它得到的字段(检查case class[2]) 如果我将case类[2]中的所有字段都定义为String类型,那么一切都很好,但这不是我想要的。有没有一个简单的方法做这件事[3]? 参考文献 [3]我已经找到了这样做的方法,首先在DataFrame级别上定义列,然后将事情转换为Dataset(比如here或here或here),但我几乎可以肯定,这不是应该做的事情。我也很确定编码器

  • 问题内容: 我正在尝试通过一种称为的方法设置项目,到目前为止还可以。但是后来我从中创建了一个arrayList,但我不知何故找不到将这些信息存储到JTable中的方法。问题是我找不到设置固定行数的方法 这是我的代码: 上课开始联赛: 足球俱乐部课程: SportsClub课程(摘要): 最后是LeagueManager,它是一个接口: 有人能帮帮我吗?我已经尝试了好几天。谢谢。 问题答案: “问题

  • 我试图从一个名为的方法中设置项目,到目前为止还不错。但后来我从它创建了一个arrayList,不知何故,我找不到将这些信息存储到JTable中的方法。问题是我找不到设置固定行数的方法 下面是我的代码: