当前位置: 首页 > 知识库问答 >
问题:

如何使用Pandas存储数据帧

柴英锐
2023-03-14

现在,每次运行脚本时,我都会导入一个相当大的csv作为数据帧。有没有一个好的解决方案可以让数据帧在运行之间不断可用,这样我就不用花那么多时间等待脚本运行了?

共有1个答案

梁建德
2023-03-14

最简单的方法是使用to_pickle对其进行处理:

df.to_pickle(file_name)  # where to save it, usually as a .pkl

然后您可以使用以下方法将其加载回去:

df = pd.read_pickle(file_name)

注意:在0.11.1之前,saveload是执行此操作的唯一方法(现在,它们被弃用,而分别支持to_pickleread_pickle)。

import pandas as pd
store = pd.HDFStore('store.h5')

store['df'] = df  # save it
store['df']  # load it

更高级的策略将在食谱中讨论。

从0.13开始,还有msgpack可以更好地实现互操作性,作为JSON的更快的替代方案,或者如果您有python对象/文本重的数据(请参见本问题)。

 类似资料:
  • 这是一个相当广泛的问题,不是特定于代码的。我正在寻找那些知道如何实施这一要求的人的意见 我正在构建一个音乐应用程序,人们可以在其中排队音乐对象。音乐对象看起来像 我非常想实现具有以下功能的相同的 即使在浏览器关闭时也能保持队列 检索任何队列(如果存在)的能力 能够洗牌,强制队列中对象的顺序播放 我对此非常陌生,所以不知道在哪里存储这些数据。请帮助我理解我需要学习什么来实现这一点。

  • 问题内容: 目前,我正在使用一项服务来执行操作,即从服务器检索数据,然后将数据存储在服务器本身上。 取而代之的是,我想将数据放入本地存储中,而不是将其存储在服务器上。我该怎么做呢? 问题答案: 这是我存储和检索到本地存储的代码的一部分。我使用广播事件来保存和恢复模型中的值。

  • 当我尝试在数据库中存储数据时,出现以下错误。 这是实体类: 当然,我会把接球手和接球手放在一起。 这是控制器: 存储库 当我尝试存储数据时,会出现以下Hibernate错误:

  • 我有一篇docker文章。yml,我有一个Postgres数据库,Grafana在上面运行以查询数据。 我用命令docker compose up启动这个compose,但是如果我不想丢失任何数据,我必须运行docker compose stop,而不是docker compose down。 我还阅读了,但“提交操作将不包括安装在容器内的卷中包含的任何数据”,所以我想它对我的需求没有用。 存储创

  • 我是Azure Databricks的新手,我的导师建议我在 https://aischool.microsoft.com/en-us/machine-learning/learning-paths/AI-platform-engineering-bootcamps/custom-machine-learning-bootcamp 据我所知,Azure Blob存储还没有设置,因此我运行的代码(以

  • 问题内容: 我已经搜索了很长一段时间,但对于如何实际保存其数字却一无所获。它们是字符数组吗?还有吗 以及如何将数据转换为? 从我发现的结果来看,我假设所有任意精度类(例如和)都将数据保存为字符数组。这实际上是这样吗?还是只是人们的猜测? 我之所以问是因为我一直在自己完成类似的实现,但是我不知道如何保存大于(不记得实际的数字)的数字。 提前致谢。 问题答案: 带着 从来源: