问题：

两个数据帧的差异

欧阳俊捷

2023-03-14

我需要按行比较两个不同大小的数据帧，并打印出不匹配的行。让我们看以下两个例子：

df1 = DataFrame({
'Buyer': ['Carl', 'Carl', 'Carl'],
'Quantity': [18, 3, 5, ]})

df2 = DataFrame({
'Buyer': ['Carl', 'Mark', 'Carl', 'Carl'],
'Quantity': [2, 1, 18, 5]})

在df2上按行打印并打印出不在df1中的行的最有效方法是什么。

Buyer     Quantity 
Carl         2
Mark         1

重要提示：我不希望有行：

Buyer     Quantity 
Carl         3

包括在差异中：

我已经尝试过了：逐行比较两个不同长度的数据帧，为每行添加相等值的列，比较两个数据帧，并排输出它们的差异

但是这些和我的问题不匹配。

共有3个答案

刘向阳

2023-03-14

diff = set(zip(df2.Buyer, df2.Quantity)) - set(zip(df1.Buyer, df1.Quantity))

这是我想到的第一个解决方案。然后，您可以将差异集放回DF中进行演示。

姜俊友

2023-03-14

您可能会发现这是最好的：

df2[ ~df2.isin(df1)].dropna()

应涵容

2023-03-14

合并2 dfs使用方法'外'和传递参数指标=True这将告诉你是否行都存在/只左/只右，然后你可以过滤合并后的df：

In [22]:
merged = df1.merge(df2, indicator=True, how='outer')
merged[merged['_merge'] == 'right_only']

Out[22]:
  Buyer  Quantity      _merge
3  Carl         2  right_only
4  Mark         1  right_only

类似资料：

Pyspark数据帧:找出两个数据帧(值和列名)之间的差异

我在dataframe中总共有100列。我试图比较两个数据帧，并找到列名不匹配的记录。我得到了以下代码的输出，但当我运行100列的代码时，作业被中止。我正在为SCD类型2增量进程错误查找执行此操作。请建议任何其他方式。
Python Pandas-查找两个数据帧之间的差异

我有两个数据帧df1和df2，其中df2是df1的子集。我如何获得一个新的数据帧(df3)，它是两个数据帧之间的差值？换句话说，一个数据帧，它包含了df1中所有的行/列，而不是DF2中的行/列？
比较两个数据帧并获得差异[重复]

我有两个数据帧。示例：每个数据帧都有日期作为索引。两个数据帧具有相同的结构。我想做的是比较这两个数据帧，找出df2中哪些行不在df1中。我想比较日期（索引）和第一列（香蕉、苹果等），看看它们是否存在于df2和df1中。我尝试了以下方法：两个熊猫数据帧并排输出差异-突出差异比较两个熊猫数据帧的差异对于第一种方法，我得到这个错误："异常：只能比较相同标记的DataFrame对象"。我尝试删
并排输出两个熊猫数据帧中的差异-突出显示差异

问题内容：我试图突出显示两个数据框之间到底发生了什么变化。假设我有两个Python Pandas数据框：我的目标是输出一个HTML表：标识已更改的行（可以是int，float，boolean，string）输出具有相同，OLD和NEW值的行（理想情况下，将其输出到HTML表中），以便使用者可以清楚地看到两个数据框之间的变化： id Name score isEnrolled Commen
Pyspark连接两个数据帧

假设我有两个数据帧，具有不同级别的信息，如下所示：我想加入df1和df2，并将“值”信息传递给df2：一天中的每一小时都将获得“日”值。预期产出：
比较两个pandas数据框的差异

问题内容：我有一个脚本可以更新5-10列的数据，但有时起始csv与结束csv相同，因此我不想写相同的csvfile，而是希望它不执行任何操作… 如何比较两个数据框以检查它们是否相同？有任何想法吗？问题答案：您还需要小心创建DataFrame的副本，否则csvdata_old将使用csvdata更新（因为它指向相同的对象）：要检查它们是否相等，可以在此答案中使用assert_frame_e

两个数据帧的差异

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档