当前位置：首页 > 面试题库 >

将多个JSON记录读取到Pandas数据框中

聂煜

2023-03-14

问题内容：

我想知道是否存在一种将多记录JSON文件（每行是一个JSON
dict）读入熊猫数据帧的内存有效方式。下面是带有工作解决方案的2行示例，我可能需要非常多的记录。示例用途是处理Hadoop Pig
JSonStorage函数的输出。

import json
import pandas as pd

test='''{"a":1,"b":2}
{"a":3,"b":4}'''
#df=pd.read_json(test,orient='records') doesn't work, expects []

l=[ json.loads(l) for l in test.splitlines()]
df=pd.DataFrame(l)

问题答案：

注意：（read_json自0.19.0开始）现在支持行分隔的json ：

In [31]: pd.read_json('{"a":1,"b":2}\n{"a":3,"b":4}', lines=True)
Out[31]:
   a  b
0  1  2
1  3  4

或使用文件/文件路径而不是json字符串：

pd.read_json(json_file, lines=True)

这将取决于您DataFrames的大小，该大小会更快，但是另一种选择是用于str.join将多行“
JSON”（注意：它不是有效的json）粉碎为有效的json并使用read_json：

In [11]: '[%s]' % ','.join(test.splitlines())
Out[11]: '[{"a":1,"b":2},{"a":3,"b":4}]'

对于这个小例子，它的速度较慢，如果大约100，则更大，这是相似的，可观的收益…

In [21]: %timeit pd.read_json('[%s]' % ','.join(test.splitlines()))
1000 loops, best of 3: 977 µs per loop

In [22]: %timeit l=[ json.loads(l) for l in test.splitlines()]; df = pd.DataFrame(l)
1000 loops, best of 3: 282 µs per loop

In [23]: test_100 = '\n'.join([test] * 100)

In [24]: %timeit pd.read_json('[%s]' % ','.join(test_100.splitlines()))
1000 loops, best of 3: 1.25 ms per loop

In [25]: %timeit l = [json.loads(l) for l in test_100.splitlines()]; df = pd.DataFrame(l)
1000 loops, best of 3: 1.25 ms per loop

In [26]: test_1000 = '\n'.join([test] * 1000)

In [27]: %timeit l = [json.loads(l) for l in test_1000.splitlines()]; df = pd.DataFrame(l)
100 loops, best of 3: 9.78 ms per loop

In [28]: %timeit pd.read_json('[%s]' % ','.join(test_1000.splitlines()))
100 loops, best of 3: 3.36 ms per loop

注意：那时联接速度非常快。

类似资料：

获取多个pandas数据框的均值

问题内容：我正在生成许多具有相同形状的数据框，并且我想将它们相互比较。我希望能够获得整个数据框的均值和中位数。然后，我想获得这两个数据帧的均值。最简单的方法是什么？为了澄清一下，当所有数据框的索引和列完全相同时，我想获取每个特定单元的平均值。因此，在我给出的示例中，平均值为（0.001182 + 0.000001）/ 2 = 0.0005915。问题答案：假设两个数据框具有相同的列，
在Aerospike中读取多个记录时获取空记录

我在Aerospike数据库中有一个名称空间：test and set:user。我通过控制台上的以下命令在users中添加了四条记录：通过aql命令，我可以查看这四条记录。aql 我知道一个接一个地获取记录的方法，它在我这边运行得很好，但这对于我的任务来说是非常昂贵的操作。我想读取多个记录（批读取）并对其执行多个算法。我从https://www.aerospike.com/docs/clien
Pandas-根据日期将数据框拆分为多个数据框？

问题内容：我有一个带有多个列以及一个日期列的数据框。日期格式为15年12月31日，我将其设置为日期时间对象。我将datetime列设置为索引，并希望对数据框的每个月执行回归计算。我相信实现此目的的方法是将数据框基于月份拆分为多个数据框，存储到数据框列表中，然后对列表中的每个数据框执行回归。我使用过groupby可以按月成功拆分数据框，但是不确定如何正确地将groupby对象中的每个组转换为
Spring批量读取多个记录并处理多个记录

我希望我的Spring批处理应用程序一次从数据库中读取50条记录，然后将这50条记录发送给处理器，然后发送给写入器。有人可以告诉我如何做到这一点吗？我尝试使用JdbcPagingItemReader并将pageSize设置为50，这样可以读取50条记录，但是rowMapper、处理器和编写器一次接收一条记录，而不是获得50条记录。如何使处理器和写入器在dto中获得50条记录，而不是一次接收一
将JSON文件读取为熊猫数据框？

问题内容：我正在使用python 3.6并尝试使用以下代码将json文件（350 MB）下载为pandas数据框。但是，出现以下错误：我该如何解决错误？问题答案：如果以二进制（）格式打开文件，则会得到字节。怎么样：
将导入的json数据获取到数据框中

问题内容：我有一个文件，其中包含要在R中使用的1500个json对象。我已经能够将数据作为列表导入，但是在将其强制转换为有用的结构时遇到了麻烦。我想创建一个数据框，其中每个json对象包含一行，每个key：value对包含一列。我用这个小的假数据集重新创建了我的处境：数据的一些功能：所有对象都包含相同数量的key：value对，尽管某些值是null 每个对象有两个非数字列（名称和组）名称

相关阅读

在pandas数据框中选择多个列将组ID返回到pandas数据框 Python Pandas-比较2个数据框，多个参数快速将JSON列转换为Pandas数据框 CX_Oracle-将数据从Oracle导入到Pandas数据框

相关文章

PHP MySQL 读取数据 Ajax获取JSON数据数据挖掘面经记录拼多多三面记录大数据实习面试记录

相关问答

将多个csv文件导入pandas并将其合并到一个数据帧中将多个csv文件导入pandas并连接到一个数据帧中将CSV从Azure Data Lake Storage Gen 2读取到Pandas Dataframe |无数据块有没有更简单的方法将多个Excel工作簿读取到单个熊猫数据框中？[重复]如何读取Spark中的多嵌套JSON数据[duplicate]

相关工具

数据库处理框架类似Twitter的登录框 Pandas Sklearn-pandas pandas-profiling

相关文档

Python 和 Pandas 数据分析教程 Pandas 函数手册快学 Scala 读书笔记 JDK 源码阅读笔记 Guava 学习记录项目