问题内容: 给定一个熊猫数据框df,以获得其列与之间的相关性的最佳方法是什么? 我不希望输出用来计数行,而内置相关性可以。但是我也希望它输出一个或标准错误,而内置错误则不会。 似乎被NaN赶上了,尽管我相信它确实具有重要意义。 数据示例: 问题答案: @Shashank提供的答案很好。但是,如果您想使用pure的解决方案,则可能会这样: 结果: 与统计功能相同的结果: 结果: 为了扩展更多的可变项
问题内容: 我想在pandas数据框列中找到一个特定的模式,并返回相应的索引值以对数据框进行子集化。 这是带有可能模式的示例数据框: 生成数据框的代码段: 数据框: 下面,感兴趣的格局发生的日期来,这就是我想要结束了一下: 所需的输出: 如果同一模式多次出现,我希望以相同的方式对数据帧进行子集化,并计算该模式出现的次数,但是只要我将第一步弄清楚,我希望这会更直接。 感谢您的任何建议! 问题答案:
问题内容: 如何使用Pandas读取以下(两列)数据(来自.dat文件) 列分隔符(至少)为2个空格。 我试过了 但它打印 问题答案: 您可以将参数usecols与列顺序一起使用: 编辑: 您可以使用分隔符-2个或更多空格,然后添加,因为出现警告: ParserWarning:回退到“ python”引擎,因为“ c”引擎不支持正则表达式分隔符(分隔符> 1个字符且与“ \ s +”不同的分隔符被
问题内容: 我有一个关于将数据框列中的列表分成多行的问题。 假设我有这个数据框: 我想要数字的每个单一组合,因此最终结果将是: 因为现在我得到以下结果: 为了得到上面的结果,我做了: 问题答案: 与斯科特·波士顿(Scott Boston)的建议类似,我建议您分别展开各列,然后将它们合并在一起。 例如,对于“职位”: 并且,一起:
问题内容: 我有一个0和1的矩阵,想对每一个列做一个累加,每当观察到一个零时就重置为0。例如,如果我们具有以下内容: 我想要的结果是: 但是,当我尝试时,我能够正确识别0个元素,但计数器不会重置: 问题答案: 您可以使用:
问题内容: 我有以下内容,行索引在哪里。如何将列中的字符串分成5列数字? 问题答案: 对于另一种情况,假设它是看起来像元组的字符串: (注意:对于较早版本的熊猫(<0.16.1),您需要使用而不是expand关键字) 顺便说一句,如果它是元组而不是字符串,则可以简单地执行以下操作:
问题内容: 我在pandas数据框中的某个列的类型有问题。基本上,该列以字符串形式保存在csv文件中,我想将其用作元组,以便能够将其转换为数字列表。接下来是一个非常简单的csv: 如果使用函数“ read_csv”加载它,则会得到字符串列表。我试图转换为列表,但是得到了字符串的列表版本: 返回: 关于如何做到这一点的任何想法吗? 谢谢。 问题答案: 您可以使用,这将给您一个元组: 如果确实需要列表
问题内容: 我有一个简单的任务,我想知道是否有更好/更有效的方法。我有一个看起来像这样的数据框: 我想添加一列来保存组总数的值: 我这样做的方式是: 是否有更好/更干净的方法将这些值直接添加到数据框中? 谢谢您的帮助。 问题答案: df[‘TotalCount’] = df.groupby(‘Group’)[‘Count’].transform(‘sum’) 这里讨论了其他一些选项。
问题内容: 下面是我的数据框 我想在第一个位置插入新行 姓名:院长,年龄:45,性别:男 在熊猫中做到这一点的最佳方法是什么? 问题答案: 如果要经常进行操作,那么就性能而言,首先将数据收集到列表中然后使用(类似于@Serenity的解决方案)是有意义的: 演示: PS我不会把,,过于频繁(每单排),因为它是相当昂贵。因此,想法是分批进行…
问题内容: 我想计算给定列中的运行总和(当然,不使用循环)。需要注意的是,我还有另一列指定何时将运行总和重置为该行中存在的值。最好通过以下示例进行说明: 是我要计算的值。 问题答案: 您可以使用2次:
问题内容: 我的Pandas Dataframe框架看起来像这样 我希望数据位于9到10个小时之间……如果有人从事过此类工作,那将非常有帮助。 问题答案: In [7]: index = date_range(‘20131009 08:30’,‘20131010 10:05’,freq=‘5T’)
问题内容: 我想在df列中获取特定值的百分比。假设我有一个(fol,col2,col3,性别)的df性别列,其值是M或F。我想获取df中M和F值的百分比。 我已经尝试过了,这给了我M和F实例的数量,但是我想要这些作为df中值总数的百分比。 有人可以帮忙吗? 问题答案: 使用有:
问题内容: 我有一个DataFrame来自pandas的: 输出: 现在,我要遍历该框架的行。对于每一行,我希望能够通过列名访问其元素(单元格中的值)。例如: pandas有可能这样做吗? 我发现了类似的问题。但这并不能给我我所需的答案。例如,建议在那里使用: 要么 但是我不了解row对象是什么以及如何使用它。 问题答案: 是一个生成器,它同时生成索引和行(作为系列):
问题内容: 我试图将输出转换为熊猫数据框,但我很努力。我有这个清单 我想创建一个具有3列和3行的熊猫数据框。我尝试使用 但它似乎对我不起作用。任何帮助,将不胜感激。 问题答案: 您需要转换为然后:
问题内容: 如何获得熊猫timedelta中的总小时数? 例如: 注意:根据文档,该属性将返回小时 部分 : 问题答案: 只需找出适合1小时的时间: