问题：

Python数据帧数据清理-规范化列的范围

高夜洛

2023-03-14

我有一个包含2171列和200行的df。我想标准化这些COL的范围。

[输入df]

Time           '340.0'   '341.0'   '342.0'   'Mode'
11:30:15 PM    0.25       0.35      0.65      light
11:31:15 PM    0.22       0.30      0.62      auto
11:32:15 PM    0.32       0.39      0.98      auto
.
.
.

[如果代码仅用于一个列，我不确定如何应用于一系列列]

sr_df['340.0'] = sr_df['340.0'].apply(lambda x: (x - x.mean()) / (x.std()))

我对python非常陌生，我不知道为什么它会给我以下错误：

AttributeError: 'float' object has no attribute 'mean'

共有2个答案

金秦斩

2023-03-14

您也可以使用Skleans的MinMaxScaler。它将自动匹配/缩放0到1之间的所有值。看看这个例子和这个。

import pandas as pd
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

columns = ['301', '341', '342'] 
df[columns] = scaler.fit_transform(df[columns])

柳墨一

2023-03-14

您可以一次对所有所需列应用规范化：

sr_df[['340.0', '341.0', '342.0']].apply(lambda x: ((x-x.mean()) / (x.std())))

sr_df[['340.0', '341.0', '342.0']]= sr_df[['340.0', '341.0', '342.0']].apply(lambda x: ((x-x.mean()) / (x.std())))

>>> sr_df
          Time     340.0     341.0     342.0   Mode
0  11:30:15 PM -0.259828  0.073922 -0.500626  light
1  11:31:15 PM -0.844441 -1.034910 -0.650814   auto
2  11:32:15 PM  1.104269  0.960988  1.151440   auto

更好的是，您可以将其应用于所有数字列（如果这是您想要的）：

# Get a list of numeric columns:
cols = list(sr_df.select_dtypes(include=[np.number]).columns.values)

sr_df[cols] = sr_df[cols].apply(lambda x: ((x-x.mean()) / (x.std())))

如果要修复代码，可以将函数应用于数据框的某一列（而不是应用于系列）。@BrenBarn的回答概述了它在系列中不起作用的原因：

当您在系列上使用应用时，您的函数将在每个元素上被调用。当您在DataFrame上使用应用时，您的函数将在每列上被调用。

因此，您正在尝试获取浮点的mean和std，而浮点没有此类属性，这会导致错误：AttributeError:“float”对象没有属性“mean”

# this works:
sr_df[['340.0']].apply(lambda x: (x - x.mean()) / (x.std()))

# This doesn't:
# sr_df['340.0'].apply(lambda x: (x - x.mean()) / (x.std()))

# The difference is this:
>>> type(sr_df['340.0'])
<class 'pandas.core.series.Series'>
>>> type(sr_df[['340.0']])
<class 'pandas.core.frame.DataFrame'>

Python数据帧数据清理-规范化列的范围

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档