问题内容: 在其他语言(例如R或SQL)中找到该选项的地方,但我不太确定如何在Pandas中进行此操作。 因此,我有一个具有1262列和1行的文件,并且每次出现特定值时都需要返回列标题。 例如说这个测试数据框: 我需要找到列名,例如value = 38.15。最好的方法是什么? 谢谢 问题答案: 看到只有一行,那么您可以调用结果并使用它来屏蔽列: 分解以上内容: 您也可以使用param :
问题内容: 从pandas.to_datetime的官方文档中,我们可以说, arg的单位(D,s,ms,us,ns)表示单位,它是整数或浮点数。这将基于原点。 例如,对于unit =’ms’和origin =’unix’(默认值),这将计算到unix纪元开始的毫秒数。 所以当我这样尝试时 下一个输出不变。每次显示datetime值,而不是第二个unix纪元开始的毫秒数。这是为什么?我想念什么吗?
问题内容: 我有一个时序数据帧,看起来像这样(时间序列 发生在同一天,但跨越了不同的时间: 从开始,我需要每5分钟创建一个小组。这是所有与该范围内的行向,其新列的值是1(行的每个组内的编号是不规则的,所以我不能简单地切断基团) 最终,数据应如下所示: 目的是执行一些操作,但是我需要做的操作未包含在方法中。因此,我必须创建一列以标识每个组,然后执行。 任何帮助或评论都将受到高度赞赏。 谢谢! 问题答
问题内容: 规范pandas DataFrame每行的最惯用方法是什么?标准化列很容易,因此一个选项(非常难看!)是: pandas广播规则禁止这样做 问题答案: 要解决广播问题,可以使用以下方法: 参见http://pandas.pydata.org/pandas-docs/stable/basics.html#matching- broadcasting-behavior
问题内容: 我使用pandas以以下方式写入excel文件: Masterfile.xlsx已经包含许多不同的选项卡。但是,它尚未包含“ Main”。 熊猫正确地写到“主要”表,不幸的是,它也删除了所有其他标签。 问题答案: Pandas文档说,它对xlsx文件使用openpyxl。快速浏览一下其中的代码ExcelWriter可以提示可能会发生以下情况:
问题内容: 我正在尝试熊猫的分组依据功能,特别是 由于gb有50个组,因此结果非常混乱,我只想探索前5个组的结果。 我找到了如何使用或选择单个组的方法(如何通过key访问datagroup的pandasgroup ),但没有找到直接选择多个组的方法。我能做的最好的事情是: 有没有更直接的方法? 问题答案: 你可以做类似的事情 虽然,我会采取不同的方法。您可以使用该对象快速获取组: 现在,您可以像字
问题内容: 我有一个带有通常时间戳的索引: 如何为具有相同时间戳但四舍五入到最接近的第5分钟间隔的该数据帧创建一列?像这样: 问题答案: 使用算术的解决方案是正确的,但是很复杂而且很慢。而是在pandas中使用漂亮的东西: 让我们比较一下速度: 快大约1000倍!
问题内容: 我想使用Excel文件来存储用python制作的数据。我的问题是我无法将图纸添加到现有的excel文件中。在这里,我建议使用示例代码来解决此问题 此代码将两个DataFrame保存到两个表中,分别命名为“ x1”和“ x2”。如果创建两个新的DataFrame并尝试使用相同的代码添加两个新的工作表“ x3”和“ x4”,则原始数据将丢失。 我想要一个具有四张纸的Excel文件:“ x1
问题内容: 我有一个csv文件,其中包含几百行和26列,但最后几列仅在几行中有一个值,它们朝向文件的中间或结尾。当我尝试使用read_csv()读取它时,出现以下错误。“ValueError:期望有23列,在第64行中有26列” 我看不到在哪里明确说明文件中的列数,或者如何确定文件认为应该包含多少列。转储在下面 问题答案: 您可以使用参数。例如,如果您有这样的csv文件: 并尝试阅读它,您会收到错
问题内容: 我有2个数据框,一个命名为USERS,另一个命名为EXCLUDE。他们两个都有一个名为“电子邮件”的字段。 基本上,我要删除EXERSUDE中包含电子邮件的USERS中的每一行。 我该怎么做? 问题答案: 您可以将和条件一起使用,通过以下方式反转布尔值: 另一个解决方案:
问题内容: Excel工作表中的数据存储如下: 产品名称是给定月份的1000个左右区域中每个区域的两行“ no no sales”和“ sales value”两行的合并。同样,最近5年的每个月都有单独的文件。此外,新产品已在不同月份中添加和删除。因此,其他月份的文件可能类似于: 论坛可以建议使用熊猫读取此数据的最佳方法吗?我不能使用索引,因为产品列每月不同 理想情况下,我想将上面的初始格式转换为
问题内容: 计量经济学背景 Fama Macbeth回归是指对面板数据进行回归的过程(其中有N个不同的个体,每个个体对应多个时期T,例如日,月,年)。因此,总共有N x T obs。请注意,如果面板数据不平衡,则可以。 Fama Macbeth回归法是对每个时期进行跨部门回归,即在给定时期t中将N个个体合并在一起。并针对t = 1,… T执行此操作。因此,总共进行了T回归。然后,对于每个自变量,我
问题内容: 我有以下代码,该代码将pandas数据框的一列中的值用作新数据框的列。数据框第一列中的值成为新数据框的索引。 从某种意义上说,我想将一个邻接表转换成一个邻接矩阵。这是到目前为止的代码: 这适用于此特定实例: 如果col3中的值不是数字,它将失败。我的问题是,是否有更优雅/更稳健的方式来做到这一点? 问题答案: 这看起来像是枢轴工作: 产量 如果您不希望使用MultiIndex列,则可以
问题内容: 无论如何,有没有使用映射功能或更好的方法来替换整个数据框中的值? 我只知道如何在系列上执行映射。 我想用数字替换“ tesst”和“ set”列中的字符串,例如set = 1,test = 2 这是我的数据集的一个示例:(原始数据集非常大) 最终结果应该是 感谢您的指教, 问题答案: 那呢 正如@Jeff在评论中指出的那样,在熊猫版本<0.11.1中,手动添加到末尾以正确转换tesst
问题内容: 我有一个这样的Pandas DataFrame: 我只想在值等于0的情况下用第二列()中的值替换值,然后(对于剩余的零值),再次使用第三列()进行替换。期望的结果是下一个: 我使用该函数完成了此操作,但它似乎太慢了。我认为这一定是一种更快的方法。 使用其他功能而不是该功能,有没有更快的方法呢? 问题答案: 使用起来更快。使用与您使用类似的模式: 但是,使用嵌套稍微快一点: 时机 使用以