问题内容: 我有一个带有多个列以及一个日期列的数据框。日期格式为15年12月31日,我将其设置为日期时间对象。 我将datetime列设置为索引,并希望对数据框的每个月执行回归计算。 我相信实现此目的的方法是将数据框基于月份拆分为多个数据框,存储到数据框列表中,然后对列表中的每个数据框执行回归。 我使用过groupby可以按月成功拆分数据框,但是不确定如何正确地将groupby对象中的每个组转换为
问题内容: 我有一个带有两列“标识符”,“值”和“子标识”的以下数据框 df : 我有一个索引列表,例如 我想在列表x中提到的索引之前插入行。就像,对于在索引2之前插入的行,将具有以下值,它将具有 与 在索引2处的行 相同的标识符 ,即1; 与 索引2的行 相同的值 ,即103;但是新行中的 subid 将是((索引2处的subid)-1),或者仅仅是前一行的subid,即1。 以下是我期望的最终
问题内容: 我有一个时序DataFrame,我想复制我的200个功能/列中的每一个作为其他滞后功能。因此,目前我在时间t处具有要素,并希望在时间步t-1,t-2等处创建要素。 我知道最好用df.shift()来完成,但是我很难将其完全合并。我还想将列重命名为“功能(t-1)”,“功能(t-2)”。 我的伪代码尝试将是这样的: 最后,如果我有200列和4个滞后时间步长,那么我将拥有一个具有1000个
问题内容: 我有一个数据文件apples.csv,其标题如下: 我将其读入带有熊猫的数据框中: 然后,我对此做一些处理,但是忽略了这一点(我已将所有注释都注释掉了,而我的总体问题仍然存在,因此这里所说的内容无关紧要)。 然后将其保存: 现在,查看bananas.csv,其标题为: 没有更多的引号(我不太在意,因为它不会影响文件中的任何内容),然后是引号。现在,随后的行中还有一个附加列,因此节省了7
问题内容: 我有一个包含“名称”列的DataFrame(df)。在“ Occ_Number”列中,我希望对“ Name”中每个值的出现次数进行统计。 例如: 我一直在尝试提出一种使用 但不能完全弄清楚如何将它们结合在一起。我只能从value_counts()中获得总计。到目前为止,我的过程涉及使用以下代码创建“名称”列字符串值的列表,该列表包含大于1的计数: 我希望然后以某种方式在“名称”中循环,
问题内容: 有谁知道有效的函数/方法(例如)来计算数组的滚动差 这是我最接近的解决方案: 但是,它仅计算单步滚动差。理想情况下,步长是可编辑的(即当前时间步长与最后n个步长之间的差)。 我也写了这个,但是对于更大的数组,它很慢: 问题答案: 关于什么: 通常,您可以使用自己的功能替换该功能。请注意,在这种情况下,第一项将是。 定义以下内容: 您可以在处计算值之间的差异。
问题内容: 另一个更新:已解决(请参阅评论和我自己的答案)。 更新:这就是我要解释的。 答:这是通过贝塞尔校正来解释的,而不是通过标准偏差公式的分母来解释的。我希望熊猫使用与numpy相同的约定。 有一个相关的讨论在这里,但他们的建议都不能工作。 我有许多不同餐厅的数据。这是我的数据框(想象不止一家餐厅,但效果只再现了一家): 问题:返回每个餐厅的价格均值。我想得到标准偏差。但是, 返回错误的值
问题内容: 我正在使用pandas groupby,并希望应用该功能来根据组中的项目进行设置。 结果如下: 但是以下工作原理: 以我的理解,这两种表达方式相似,请问第一种无效的原因是什么? 问题答案: 更新资料 直到大熊猫0.22版,这才成为问题。 从熊猫1.1.2版开始,这不是问题。汇总,不会导致。 不确定何时更新功能。 原始答案 这是因为是, 而是是 : 根据文档,期望: arg:或 用于汇总
问题内容: 我有一个文本字符串的一列包含逗号分隔的值。我想拆分每个CSV字段并为每个条目创建一个新行(假定CSV干净,只需要在’,’上拆分)。例如,a应变为b: 到目前为止,我已经尝试了各种简单的函数,但是该.apply方法似乎只在轴上使用一行作为返回值,而我无法开始.transform工作。我们欢迎所有的建议! 示例数据: 我知道这是行不通的,因为我们通过numpy丢失了DataFrame元数据
问题内容: 我想将它们分成几个新列。假设我有一个看起来像这样的数据框: 我知道使用: 我可以分割一个字符串。但是,下一步,我想像这样有效地将拆分后的字符串放入新列中: 我可以例如这样做: 但是,如何才能更优雅地达到相同的结果呢? 问题答案: 该方法有一个参数: 带有列名: Python> = 3.6 f字符串的情况更加整洁:
问题内容: 我有以下数据框 我想更换和使用,所以最终的数据帧 我尝试了以下操作,但没有成功: 问题答案: 解决方案与通过: 如果需要将列中的所有值设置为一些:
问题内容: 我有一个带有4列的(example-)数据框: 我现在想将B,C和D列合并/合并到新的E列,如本例所示: 我在这里发现了一个非常类似的问题,但这在A列的末尾添加了合并的列B,C和D: 感谢帮助。 问题答案: 选项1 使用和 选项2 使用分配和 选项3 最近,我喜欢第3个选项。 使用
问题内容: 我的应用程序涉及处理以下形式的数据(包含在CSV中): 目前,我使用numpy loadtxt方法(可以轻松使用Pandas的read_csv)读取CSV。目前,在我的系列影片中,我正在将时间戳字段转换如下: 接下来,我将timestamp_date设置为DataFrame的Datetime索引。我尝试在几个地方进行搜索,以查看是否有使用这些Unix纪元时间戳的更快(内置)方法,但找不
问题内容: 当我尝试绘制其中包含日期时间的pandas DataFrame列的切片时出现KeyError。有人知道是什么原因造成的吗? 我设法在一个独立的示例中重现了该错误(您也可以在这里查看:http : //nbviewer.ipython.org/3714142/): 现在,如果我绘图: 没问题,但是当我绘图时: 我在下面看到KeyError(错误消息对我不是很有帮助)。这 仅在dateti
问题内容: 我从CSV文件加载了一些机器学习数据。前两列是观察值,其余两列是要素。 目前,我执行以下操作: 它给出了类似的东西: 我想两个dataframes切片此数据框:包含列一个和和包含一个列,和。 不可能写这样的东西 我不确定最好的方法是什么。我需要吗? 顺便说一下,我发现数据帧索引非常不一致:允许,但不允许。另一方面,不允许,但允许。是否有实际原因?如果列是由Int索引的,这确实令人困惑,