Python=-使用pandas的“大数据”工作流程

黄宏毅

2023-03-14

问题内容：

在学习pandas的过程中，我试图迷惑了这个问题很多月。我在日常工作中使用SAS，这非常有用，因为它提供了核心支持。但是，由于许多其他原因，SAS作为一个软件还是很糟糕的。

有一天，我希望用python和pandas取代我对SAS的使用，但是我目前缺少大型数据集的核心工作流程。我并不是说需要分布式网络的“大数据”，而是文件太大而无法容纳在内存中，但文件又足够小而无法容纳在硬盘上。

我的第一个想法是用来HDFStore将大型数据集保存在磁盘上，然后仅将需要的部分拉入数据帧中进行分析。其他人则提到MongoDB是一种更易于使用的替代方案。我的问题是这样的：

什么是实现以下目标的最佳实践工作流：

将平面文件加载到永久的磁盘数据库结构中
查询该数据库以检索要输入到熊猫数据结构中的数据
处理熊猫中的片段后更新数据库

现实世界中的示例将不胜感激，尤其是那些使用“大数据”中的熊猫的人。

编辑-我希望如何工作的示例：

迭代导入一个大型平面文件，并将其存储在永久的磁盘数据库结构中。这些文件通常太大而无法容纳在内存中。
为了使用Pandas，我想读取此数据的子集（通常一次只读取几列），使其适合内存。
我将通过对所选列执行各种操作来创建新列。
然后，我将不得不将这些新列添加到数据库结构中。

我正在尝试找到执行这些步骤的最佳实践方法。阅读有关熊猫和pytables的链接，似乎添加一个新列可能是个问题。

编辑-专门回答杰夫的问题：

我正在建立消费者信用风险模型。数据类型包括电话，SSN和地址特征；财产价值；犯罪记录，破产等贬义信息。我每天使用的数据集平均有近1,000到2,000个字段，这些字段是混合数据类型：数字和字符数据的连续，名义和有序变量。我很少追加行，但是我确实执行了许多创建新列的操作。
典型的操作涉及使用条件逻辑将几个列合并到一个新的复合列中。例如，if var1 > 2 then newvar = ‘A’ elif var2 = 4 then newvar = ‘B’。这些操作的结果是数据集中每个记录的新列。
最后，我想将这些新列添加到磁盘数据结构中。我将重复步骤2，使用交叉表和描述性统计数据探索数据，以寻找有趣的直观关系进行建模。
一个典型的项目文件通常约为1GB。文件以这样的方式组织：行包含消费者数据记录。每条记录的每一行都有相同的列数。情况总是如此。
创建新列时，我会按行进行子集化是非常罕见的。但是，在创建报告或生成描述性统计信息时，对行进行子集化是很常见的。例如，我可能想为特定业务创建一个简单的频率，例如零售信用卡。为此，除了我要报告的任何列之外，我将只选择那些业务线=零售的记录。但是，在创建新列时，我将拉出所有数据行，并且仅提取操作所需的列。
建模过程要求我分析每一列，寻找与某些结果变量有关的有趣关系，并创建描述这些关系的新复合列。我探索的列通常以小集形式完成。例如，我将集中介绍一组仅涉及属性值的20个列，并观察它们与贷款违约的关系。一旦探索了这些列并创建了新的列，我便转到另一组列，例如大学学历，并重复该过程。

我正在做的是创建候选变量，这些变量解释我的数据和某些结果之间的关系。在此过程的最后，我应用了一些学习技术，这些技术可以根据这些复合列创建一个方程式。
我很少向数据集添加行。我几乎总是会创建新列（统计/机器学习术语中的变量或功能）。

问题答案：

我通常以这种方式使用数十GB的数据，例如，我在磁盘上有通过查询读取的表，创建数据并追加回去。

值得阅读文档以及该线程的后期内容，以获取有关如何存储数据的一些建议。

将影响你存储数据方式的详细信息，例如：
尽可能多地提供详细信息；我可以帮助你建立结构。

数据大小，行数，列数，列类型；你要追加行还是仅追加列？
典型的操作将是什么样的。例如，对列进行查询以选择一堆行和特定的列，然后执行一个操作（在内存中），创建新列并保存。
（提供一个玩具示例可以使我们提供更具体的建议。）
处理完之后，你该怎么办？步骤2是临时的还是可重复的？
输入平面文件：大约总大小（以Gb为单位）。这些是如何组织的，例如通过记录？每个文件都包含不同的字段，还是每个文件都有一些记录，每个文件中都有所有字段？
你是否曾经根据条件选择行（记录）的子集（例如，选择字段A> 5的行）？然后执行某些操作，还是只选择包含所有记录的字段A，B，C（然后执行某些操作）？
你是否“工作”所有列（成组），或者有很大一部分可以仅用于报告（例如，你想保留数据，但无需明确地拉入该列，直到最终结果时间）？

Python=-使用pandas的“大数据”工作流程

相关阅读

相关文章

相关问答

相关工具

相关文档