当前位置: 首页 > 面试题库 >

在Python中加载大型JSON列表的最佳方法是什么?

万俟心思
2023-03-14
问题内容

我可以访问一组文件(每个文件约80-800mb)。不幸的是,每个文件中只有一行。该行仅包含一个JSON对象(列表列表)。加载并将其解析为较小的JSON对象的最佳方法是什么?


问题答案:

这是他们提出的解决方案:

import json
with open('file.json') as infile:
  o = json.load(infile)
  chunkSize = 1000
  for i in xrange(0, len(o), chunkSize):
    with open('file_' + str(i//chunkSize) + '.json', 'w') as outfile:
      json.dump(o[i:i+chunkSize], outfile)


 类似资料:
  • 问题内容: 这个问题已经在这里有了答案 : 将巨大的(95Mb)JSON数组拆分成较小的块? (4个答案) 5天前关闭。 我可以访问一组文件(每个文件约80-800mb)。不幸的是,每个文件中只有一行。该行仅包含一个JSON对象(列表列表)。加载并将其解析为较小的JSON对象的最佳方法是什么? 问题答案: 已经有一个类似的帖子在这里。这是他们提出的解决方案:

  • 问题内容: 复制列表的最佳方法是什么?我知道以下方法,哪种更好?还是有另一种方法? 问题答案: 如果要浅拷贝(不复制元素),请使用: 如果要进行深层复制,请使用复制模块:

  • 问题内容: 将包含JSON的文件加载到JSONObject的最简单方法是什么。 目前,我正在使用json-lib。 这是我所拥有的,但是会引发异常: 输出为: 问题答案: 试试这个: 这是您的sample-json.txt,应为json格式

  • 问题内容: 在最近的项目中,“主要”开发人员设计了一种数据库模式,其中“较大”的表将被拆分成两个单独的数据库,并在主数据库上具有将两个单独的数据库表合并在一起的视图。主数据库是从应用程序中删除的数据库,因此这些表看起来和感觉都像普通表(除了一些有关更新的古怪事物)。这似乎是一个巨大的性能问题。我们确实在这些桌子周围发现了性能问题,但是没有什么可以让他改变对设计的想法。只是想知道什么是最好的方法,或

  • 问题内容: 当我将WCF配置为使用jSON序列化并将DataTable包含在我的一个DataContracts中时,它会先将DataTable序列化为XML,然后再将整个DataContract序列化为jSON。我希望将DataTable序列化为jSON,而不是XML。 我的问题是: 为什么首先将DataTable序列化为XML? 我如何才能将其序列化到jSON? 问题答案: DataTable是

  • 问题内容: 我有以下格式的多维列表: 如何获得所有子列表的第三个值的最大值。用伪代码: 我知道这可以通过遍历列表并将第三个值提取到新列表中,然后简单地执行来完成,但是我想知道是否可以使用lambda或列表理解来完成? 问题答案: 只需与生成器表达式一起使用: 另外,不要命名您的变量,而是要隐藏类型。