问题内容: 我希望能够计算Pandas DataFrame中数据的描述性统计信息,但我只关心重复的条目。例如,假设我通过以下方式创建了DataFrame: 如您所见,行0、1、3、4、6和7都是重复的(使用’key1’和’key2’。但是,如果我像这样索引此DataFrame: 我懂了 (即第一行和第二行不会显示,因为重复的方法未将它们索引为True)。 那是我的第一个问题。我的第二个问题涉及如何
问题内容: 在pandas中,给定一个DataFrame D: 当三列或更多列返回以下内容时,如何返回其所有列具有相同内容的行: 请注意,当所有值均为NaN时,它将跳过行。 如果这仅仅是两列,我通常会这样做,但是我不知道如何针对两列以上的DataFrames进行概括。 问题答案: 与Andy Hayden的答案类似,检查min是否等于max(然后所有行元素都是重复的):
问题内容: 我有一个pandas df [见下文]。如何将函数中的值添加到新列“价格”中? 问题答案: 通常,您可以使用apply函数。如果函数仅需要一列,则可以使用: 如@EdChum建议。如果您的函数需要多列,则可以使用类似以下内容:
问题内容: 场景: 我有一个从Excel工作表中检索到具有多个列的数据框。其中一些列是日期:一些仅包含日期(yyyy:mm:dd),一些具有日期和时间戳(yyyy:mm:dd 00.00.000000)。 问题: 当日期不是数据框的索引时,如何从日期中删除时间戳? 我已经尝试了什么: 在SO的其他文章中使用pandas中的日期- 在datetime中删除看不见的字符并转换为字符串以及如何剥离pan
问题内容: 在python中,日期似乎是一件棘手的事情,而从pandas TimeStamp中剥离日期却给我带来了很多麻烦。我想简单地 我有一个带有Created_date列的数据框: 我已尝试在该系列上应用该方法,例如:,但出现错误 有人可以帮我吗? 问题答案: 在元素上: 您可以通过调用组成的元素的方法来获取原始对象: 然而, 另一种 方式,你可以做到这一点是通过调用未绑定方法: 此方法最快,
问题内容: 这应该很容易,但是以某种方式我找不到有效的解决方案。 我有一个熊猫数据框,看起来像这样: 我想按col1和col2分组并获得col3和col4。 由于无法汇总数据,因此可以删除。 这是输出的样子。我很感兴趣,同时具有和中产生的数据帧。是否和是否属于索引并不重要。 这是我尝试过的: 但是,这只会返回的汇总结果。 我在这里迷路了。我发现的每个示例仅汇总一列,显然不会发生此问题。 问题答案:
问题内容: 我浏览了与该问题相关的一堆问题和答案,但是我仍然发现我在意想不到的地方得到了切片警告的副本。另外,它的代码在以前对我来说运行良好,这使我想知道某种更新是否可能是罪魁祸首。 例如,这是一组代码,其中我要做的就是将Excel文件读入pandas中,并减少语法中包含的列集。 现在,我对该文件所做的任何进一步更改都会引发切片警告的副本。 /Users/samlilienfeld/anacond
问题内容: 我想补的平均相邻元件。 考虑一个数据框: 我想要的输出是: 我研究了其他解决方案,例如包含NaN的Fillcell之前和之后的平均值,但这在连续两个或多个s的情况下不起作用。 任何帮助是极大的赞赏! 问题答案: 使用+除以2: 编辑: 如果包含第一个和最后一个元素,则使用([Dark` 建议):
问题内容: 我知道如何在两个熊猫数据帧之间进行逐元素乘法。但是,当两个数据框的尺寸不兼容时,事情就变得更加复杂。例如,下面是简单明了的问题,但是: 在上述情况下, 如何将df的每一列与df3.col1相乘 ? 我的尝试: 我尝试复制 时间以获得与以下维度相同的数据框: 但这会创建一个尺寸为3 * 5的数据框,而我在5 * 3之后。我知道我可以随心所欲地获取所需的东西,但是我认为这不是最快的方法。
问题内容: 之间有什么区别: 和 如何通过column-indexnumber获取数据?而不是通过索引字符串? 问题答案: 一个是列(又名系列),而另一个是DataFrame: 列“ b”(又名系列): [1]中具有列(位置)的子数据框: 注意:最好(而不是模棱两可)指定您是在谈论列名,例如[‘b’]还是整数位置,因为有时您可以将列命名为整数:
问题内容: 我有两列带有字符串。我想将它们结合起来并忽略值。这样: 我试过了,但是如果任一列是nan,那都会创建一个nan值。我也考虑过使用。 我想我可以解决这个问题,然后再使用一些,但这似乎很可行。 问题答案: 调用并传递一个空的str作为填充值,然后使用param :
问题内容: 我正在尝试使用作为df一部分的几个布尔变量来过滤df,但一直未能做到。 样本数据: C和D列的dtype是布尔值。我想仅使用C或D为True的行创建一个新的df(df1)。它看起来应该像这样: 我已经尝试过类似的事情,因为它无法处理布尔类型,因此会遇到问题: 有任何想法吗? 问题答案: In [82]: d Out[82]: A B C D 0 John Doe 45 True Fal
问题内容: 使用groupby并在熊猫中并行应用过滤器的最有效方法是什么? 基本上我要的是SQL中的等效项 我认为有很多用例,包括条件均值,总和,条件概率等,这些条件会使该命令非常强大。 我需要一个非常好的性能,因此理想情况下,这样的命令将不是在python中完成的多个分层操作的结果。 问题答案: 如unutbu的评论中所述,groupby的过滤器等效于SQL的HAVING: 您可以编写更复杂的函
问题内容: 我在将正则表达式函数应用于python数据框中的列时遇到问题。这是我的数据框的标题: 我以为我对将函数应用于Dataframes有很好的掌握,所以也许我缺少Regex技能。 这是我整理的: 输出将是名为Season2的列,其中包含连字符前的年份。我敢肯定,没有正则表达式,这是一种更简单的方法,但更重要的是,我正在努力弄清楚我做错了什么 感谢您的任何提前帮助。 问题答案: 当我尝试(一种
问题内容: 对此有很多问题,但是对于如何将xlsb文件读入熊猫还没有简单的答案。是否有捷径可寻? 问题答案: 随着pandas-的发布,增加了对二进制Excel文件的支持。 笔记: 您将需要升级熊猫- 您将需要安装-