当前位置: 首页 > 知识库问答 >
问题:

将csv加载到Postgres数据库的pandas.read_csv与其他csv库的比较

云焱
2023-03-14

我是一个相对较新的Python用户。解析和处理CSV并将其加载到本地Postgres数据库(在Python中)的最佳方式是什么?

建议我使用CSV库来解析和处理CSV。特别是,手头的任务说:

数据可能有错误(某些行可能是不可解析的),数据可能是重复的,数据可能非常大。

共有1个答案

陈誉
2023-03-14

快速搜索并没有发现pandas.read_csv在功能方面的任何严重缺陷(解析正确性、支持的类型等)。此外,由于您似乎也在使用pandas将数据加载到DB,因此直接读取dataframe性能和内存方面都有很大提高(没有多余的副本)。

对于非常大的数据集,只有内存问题--但这些不是库的错误。如何使用pandas读取6 GB的csv文件说明了如何使用pandas分块处理大型.csv

关于“数据可能有错误”,read_csv有一些工具,如转换器error_bad_linesskip_blank_lines(具体的操作过程取决于您是否能够恢复损坏以及损坏的程度)。

 类似资料:
  • NEO4J2.1.7 试图通过我在CSV中收到的信息大量连接一堆节点,如下所示: PS:我尝试了上面的语法,也尝试了,都没有用(语法错误)

  • 问题内容: 我正在尝试使用Java + Hibernate + Spring将CSV文件加载到mySQL数据库中。我在DAO中使用以下查询来帮助我加载到数据库中: 我有一些想法可以从http://dev.mysql.com/doc/refman/5.1/en/load- data.html 使用它,以及如何从hibernate +spring应用程序将csv文件导入到mysql中? 但是我得到了错

  • 我正在尝试将csv导入postgres。 我已经建立了我的表,我的csv文件的格式是这样的,它是明确的数据,我需要的是,但它不是以相同的方式格式化的表。 举个简单的例子:我有 表1与字段1字段2和字段3 表2包括字段1和字段2 我的csv有值1、值2、值3、值4 我想将值1加载到表1字段2中,将值2加载到表2字段1中,将值3加载到表1字段3中。 我想知道postgres内部或外部是否有任何工具用于

  • 问题内容: 我想在数据库中使用csv文件 问题答案: 由于SQLAlchemy的强大功能,我还在项目中使用了它。它的强大功能来自于与数据库“对话”的面向对象的方式,而不是硬编码难以管理的SQL语句。更不用说,它也快很多。 坦率地回答您的问题,是的!使用SQLAlchemy将数据从CSV存储到数据库中简直是小菜一碟。这是一个完整的工作示例(我使用了SQLAlchemy 1.0.6和Python 2.

  • 问题内容: 如何检查数据库中是否存在Blob的重复项。我的数据库中有文档表,但是我不确定如何检查其中一个是否重复。我知道您应该使用dbms_lob.compare函数,但是在阅读了有关该主题的一些线程和文章之后,我仍然不明白这一点。 Documents表具有document_id列和data(blob)列。如何检查document_id = 1是否重复? 问题答案: “如果dbms_lob.com

  • 我有一个独立的H2服务器,正在收集数据。为了进行测试,我希望将数据从服务器中提取到CSV文件中。有什么工具吗?