问题：

将大型数据集加载到Pandas Python中

柳刚豪

2023-03-14

我想从InstaCart https://www.InstaCart.com/datasets/grocery-shopping-2017加载大型.csv（3.4百万行，20.6万用户）开源数据集

基本上，我在将orders.csv加载到Pandas数据帧中时遇到了麻烦。我想学习将大文件加载到Pandas/Python中的最佳实践。

共有1个答案

乜飞航

2023-03-14

最好的选择是分块读取数据，而不是将整个文件加载到内存中。

幸运的是，read_csv方法接受chunksize参数。

for chunk in pd.read_csv(file.csv, chunksize=somesize):
    process(chunk)

注意：通过将chunksize指定为read_csv或read_table，返回值将是TextFileReader类型的iterable对象：

null

类似资料：

使用AngularJS加载大型数据集

问题内容：我正在尝试设计一种无需分页就可以将大量数据（最多1000行）加载到页面中的方法。这方面的第一个障碍是以并行咬大小块查询数据库，这是我在如何使用AngularJS进行顺序RestWeb服务调用的解决方案的帮助下完成的。但是，我在实施时遇到了两个问题：每个返回的对象都将传递到一个数组中，然后该数组本身将作为Angular用来绑定的数组返回。即[[{{键：值，键：值，键：值}，{键：值，
无法用GraphDB加载大型数据集

当我将这个DBpedia（2015-10，嗯，大约10亿个三倍）加载到GraphDB 9.1.1中时，CPU负载在大约1300万个三倍和空闲之后下降到0%。在我手动终止之前，进程不会终止。与通过Xmx CMD选项分配给java的512GB相比，该机器有足够的磁盘空间和足够多的RAM。我试图加载的文件提供在这里：https://hobbitdata.informatik.uni-leipzig.
将大量数据加载到Oracle SQL数据库

问题内容：我想知道是否有人对我即将从事的工作有任何经验。我有几个csv文件，它们的大小都在一个GB左右，我需要将它们加载到oracle数据库中。虽然加载后我的大部分工作都是只读的，但我仍需要不时加载更新。基本上，我只需要一个很好的工具即可一次将多行数据加载到数据库中。到目前为止，这是我发现的内容：我可以使用SQL Loader来完成很多工作我可以使用批量插入命令某种批量插入。以某种方式
如何将csv直接加载到Spark数据集中？

此外，特别是对于它得到的字段（检查case class[2]) 如果我将case类[2]中的所有字段都定义为String类型，那么一切都很好，但这不是我想要的。有没有一个简单的方法做这件事[3]？参考文献 [3]我已经找到了这样做的方法，首先在DataFrame级别上定义列，然后将事情转换为Dataset（比如here或here或here），但我几乎可以肯定，这不是应该做的事情。我也很确定编码器
将arrayList数据加载到JTable中

问题内容：我正在尝试通过一种称为的方法设置项目，到目前为止还可以。但是后来我从中创建了一个arrayList，但我不知何故找不到将这些信息存储到JTable中的方法。问题是我找不到设置固定行数的方法这是我的代码：上课开始联赛：足球俱乐部课程： SportsClub课程（摘要）：最后是LeagueManager，它是一个接口：有人能帮帮我吗？我已经尝试了好几天。谢谢。问题答案： “问题
将arrayList数据加载到JTable中

我试图从一个名为的方法中设置项目，到目前为止还不错。但后来我从它创建了一个arrayList，不知何故，我找不到将这些信息存储到JTable中的方法。问题是我找不到设置固定行数的方法下面是我的代码：

将大型数据集加载到Pandas Python中

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档