问题内容: 刚开始使用pandas和python。 我有一个工作表,已读入数据框并应用了前向填充(ffill)方法。 然后,我想创建一个包含两个工作表的Excel文档。 在应用填充方法之前,一个工作表将在数据框中包含数据,而在下一个工作表将应用了填充方法的数据框。 最终,我打算为数据框的特定列中的每个数据唯一实例创建一个工作表。 然后,我想对结果应用某些vba格式-但我不确定哪个dll或插件,或者
我知道我可以给单只熊猫重新命名。DataFrame列具有: 但是我想在不知道列名称的情况下重命名它(基于它的索引-尽管我知道字典没有)。我想重命名第1列,如下所示: 但是在DataFrame.columns dict中没有“1”条目,因此不进行重命名。我怎样才能做到这一点?
我有一个CSV文件,如下所示: 我想得到每列的平均值,最小值,最大值,并将这些统计数据作为新行。我排除非数字列(构建列),然后运行统计信息。我通过这样做来实现这一点: 如果我当时将此数据写入CSV,它将如下所示: 这接近我想要的,但我希望构建列再次成为第一列,并在最小,平均,最大值的顶部存在构建名称。基本上是这样的: 我试图通过以下方式实现这一目标: 但这给了我一个CSV: 我怎样才能解决这个问题
我有一个列,其中的值保存为字典,我使用下面的代码将值分解为两个单独的列,但是,我正在努力处理具有空值的行(请参见下面的错误消息):df desired_output_df 我的代码: 但是,我收到以下错误:ValueError:节点或字符串格式错误:0
我有一个熊猫数据框,如下所示 我想用不含重复项的随机字符串替换“EMAIL”列中的NaN,该字符串不一定包含@。 我试图做一个def生成随机字符串,但NaN被替换为相同的随机字符串,因为我毕竟使用了'fillna'方法。 看起来,正如我看到的其他Q$As,fillna中的def只工作一次,并用同样的值或字符串替换所有的NaN。 我应该试着用“for”一个接一个地替换它们吗? 或者有没有一种更像蟒蛇
我在导入带有熊猫的JSON文件时遇到了一些困难。 这是我得到的错误: 文件结构简化如下: 它来自Coursera上的华盛顿大学机器学习课程。你可以在这里找到文件。
我来自SQL环境,正在学习Python Pandas中的一些内容。我有一个关于分组和聚合的问题。 假设我按年龄类别对数据集进行分组,并计算不同的类别。在MSSQL中,我会这样写: 结果集是一个带有两列的“普通”表,第二列我命名为Count。 当我想在Pandas中进行等效时,groupby对象的格式不同。所以现在我必须重置索引,并在下面一行中重命名列。我的代码如下所示: 我的问题是,这是否可以一次
我有一个带有数组列的数据帧: 我读了这个CSV,并将“类”列的值转换成数组: 现在我想选择“类”值中具有“performer_0”的行。像这样: 但是这个代码不起作用: 回溯(最后一次调用):文件“d:\pyenv\pandas\lib\site packages\pandas\core\indexes\base.py”,第2657行,在get_loc return self.\u engine.
因此.loc和.iloc不是典型的函数。它们以某种方式使用[和]来包围参数,使其与普通数组索引相当。然而,我从未在另一个库中看到过这种情况(我可以想到,可能numpy就是这样的东西,我不知道它在技术上是如何工作的/在python代码中是如何定义的)。 本例中的括号是否只是函数调用的语法糖?如果是这样,那么如何让任意函数使用括号而不是括号呢?否则,它们的使用/定义有什么特殊之处?
我有一个6000行数据框,我想删除所有值小于2的行。我目前的尝试是:df=煤[煤['值'] 我已经附上了我的df的快照,我想删除较小的值。我对python还是比较陌生的,所以请容忍我。 https://i.stack.imgur.com/3mbA7.png
我只是不明白第二行“==”的意思: -这不是一个测试,没有if语句… -它不是一个变量声明。。。 我以前从未见过这个,事情是是熊猫系列,而不是测试...
我试图取消这个下面的数据框。 我的数据帧: 输出
我有一个多索引数据框,看起来像 uid tid文本 abc x t1 bcd y t2 uid 和 tid 是索引。我有一个 uid 列表,并希望获取与该列表中的 uid 相对应的行,但保留第 2 级索引值 (tid)。我想在不运行任何显式循环的情况下执行此操作。这可能吗?
我有一个熊猫表,格式如下[df],由“noc”和“year”索引。我如何访问“noc,年份组合”并将“total_Medales”条目保存到列表中? 例如:我想在1992年(即21.5)中搜索ARG的“total_medals”,并将其保存到新列表中。
我有1000个文本文件。每个都有日期(我做了索引)和股票价格(列0)。我已经创建了代码来查找单个文件的价格的移动平均线,以及价格和移动平均线之间的滚动差异。我想为每个文件创建这样的代码。我必须在组中上传它们,因为它需要太多的内存来一次性上传它们。 我想我必须使用for循环来遍历文件并找到每个文件的度量。但我该怎么做呢?我如何将所有文件上传到一个组中,然后将它们分组到一个变量中,然后创建一个循环来查