当前位置: 首页 > 面试题库 >

在python中使用.loc选择

邓禄
2023-03-14
问题内容

我在某人的iPython笔记本中看到了此代码,并且对
代码的工作方式感到非常困惑。据我了解,pd.loc []用作基于位置的
索引器,其格式为:

df.loc[index,column_name]

但是,在这种情况下,第一个索引似乎是一系列布尔值。
有人可以向我解释一下此选择的工作原理。我试图通读
文档,但找不到解释。谢谢!

iris_data.loc[iris_data['class'] == 'versicolor', 'class'] = 'Iris-versicolor'

问题答案:

pd.DataFrame.loc可以使用一两个索引器。在其余文章中,我将第一个索引器表示为i,将第二个索引器表示为j

如果仅提供一个索引器,则该索引器将应用于数据帧的索引,并且假定缺少的索引器代表所有列。因此,以下两个
示例是等效的。

  1. df.loc[i]
  2. df.loc[i, :]

其中:用来表示所有列。

如果同时存在两个索引器,则i引用索引值和j引用列值。

现在我们可以专注于什么类型的值i,并j可以承担。让我们以以下数据框df为例:

    df = pd.DataFrame([[1, 2], [3, 4]], index=['A', 'B'], columns=['X', 'Y'])

loc 已经写成这样i并且j可以是

  1. scalars 应该是各个索引对象中的值

    df.loc['A', 'Y']
    
  2. arrays 其元素也是相应索引对象的成员(请注意,我传递给的数组的顺序loc受尊重

        df.loc[['B', 'A'], 'X']

          B    3
         A    1
         Name: X, dtype: int64
* 传递数组时,请注意返回对象的维数。`i`是上面的数组,`loc`返回一个对象,其中返回带有这些值的索引。在这种情况下,因为j是标量,所以`loc`返回了一个`pd.Series`对象。如果我们为i和传递了一个数组,我们可以操纵它以返回一个数据帧j,并且该数组可能只是一个单值数组。

```
df.loc[[‘B’, ‘A’], [‘X’]]

       X
    B  3
    A  1

  3. **boolean arrays** 为True或False且长度与相应索引的长度匹配的布尔数组。在这种情况下,loc只需获取布尔数组所在的行(或列) `True`.

    df.loc[[True, False], ['X']]

   X
A  1

```

除了可以传递给哪些索引器之外loc,它还使您能够进行分配。现在,我们可以分解您提供的代码行。

iris_data.loc[iris_data['class'] == 'versicolor', 'class'] = 'Iris-versicolor'
  1. iris_data['class'] == 'versicolor' 返回一个布尔数组。
  2. class 是表示column对象中的值的标量.
  3. iris_data.loc[iris_data['class'] == 'versicolor', 'class'] returns a pd.Series object consisting of the 'class' column for all rows where 'class' is 'versicolor'
  4. 与赋值运算符一起使用时:
    iris_data.loc[iris_data['class'] == 'versicolor', 'class'] = 'Iris-versicolor'
    

我们分配'Iris-versicolor'在列中的所有元素'class',其中
'class''versicolor'



 类似资料:
  • 我在某人的iPython笔记本上看到了这段代码,我对这段代码的工作原理感到非常困惑。据我所知,pd.loc[]用作基于位置的索引器,其格式为: 然而,在这种情况下,第一个索引似乎是一系列布尔值。有人能给我解释一下这个选择是如何工作的吗?我试图通读留档,但我想不出一个解释。谢谢!

  • 假设我有下面的数据框,我想将

  • 我试图通过使用iloc或loc以及下面引用的数据集来更新表1(一级、二级和三级)。如果有建议,我愿意选择一种比loc和iloc更好的方法。 表1 例1 如果我希望表格更新为第13级和第三级工资等级的1102选择的新信息,我将使用以下pd.loc代码: 例2:这个也管用。 然而,挑战是当我需要选择多个索引或多列时。 多行 现在,如果我想更新表1,所有级别I的总计,而不是执行某种类型的df.isin,

  • 问题内容: 我正在尝试从3个按钮的列表中进行选择,但是找不到选择它们的方法。以下是我正在使用的HTML。 我可以使用以下代码找到它: 输出:SRF,COM,MOT 但我想选择ChoiceOne。(单击它)我该怎么做? 问题答案: 使用CSS选择器或XPath 直接按属性选择,然后单击它。 更正(但是OP应该学习如何在文档中查找) 在Python绑定中,它不存在,称为。一个人应该能够查看异常消息并在

  • 此输出:SRF、COM、MOT 但我想选一个。(点击它)我怎么做?

  • 问题内容: 我一直在尝试从数据集中为所有行选择一组特定的列。我尝试了以下类似的方法。 我想提一下,所有行都包含在内,但只需要编号的列即可。有没有更好的方法来解决这个问题。 样本数据: 我试图忽略我的数据集中的工作,婚姻,教育和y栏。y列是目标变量。 问题答案: 如果需要按位置选择,请使用: 另一个解决方案是不必要的列: