问题：

寻找局部最大值和最小值

南门建章

2023-03-14

我有一个熊猫数据框，有两列，一列是温度，另一列是时间。

我想做第三和第四列，叫做最小和最大。这些列中的每一个都将填充nan's，除非有一个局部min或max，那么它将具有该极值的值。

这里是一个数据的样本，本质上我试图识别图中所有的峰值和低点。

有没有内置的熊猫工具可以做到这一点？

共有3个答案

沈飞跃

2023-03-14

使用Numpy

ser = np.random.randint(-40, 40, 100) # 100 points
peak = np.where(np.diff(ser) < 0)[0]

或

double_difference = np.diff(np.sign(np.diff(ser)))
peak = np.where(double_difference == -2)[0]

使用熊猫

ser = pd.Series(np.random.randint(2, 5, 100))
peak_df = ser[(ser.shift(1) < ser) & (ser.shift(-1) < ser)]
peak = peak_df.index

秦毅

2023-03-14

假设感兴趣的列被标记为data，一种解决方案是

df['min'] = df.data[(df.data.shift(1) > df.data) & (df.data.shift(-1) > df.data)]
df['max'] = df.data[(df.data.shift(1) < df.data) & (df.data.shift(-1) < df.data)]

例如：

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Generate a noisy AR(1) sample
np.random.seed(0)
rs = np.random.randn(200)
xs = [0]
for r in rs:
    xs.append(xs[-1]*0.9 + r)
df = pd.DataFrame(xs, columns=['data'])

# Find local peaks
df['min'] = df.data[(df.data.shift(1) > df.data) & (df.data.shift(-1) > df.data)]
df['max'] = df.data[(df.data.shift(1) < df.data) & (df.data.shift(-1) < df.data)]

# Plot results
plt.scatter(df.index, df['min'], c='r')
plt.scatter(df.index, df['max'], c='g')
df.data.plot()

查修谨

2023-03-14

fuglede提供的解决方案非常好，但如果您的数据非常嘈杂（如图中所示），则最终会出现大量误导性的局部极端情况。我建议您使用scipy。信号argrelextrema（）方法。。argrelextrema（）方法有其自身的局限性，但它有一个有用的功能，可以指定要比较的点数，有点像噪声过滤算法。例如：

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from scipy.signal import argrelextrema

# Generate a noisy AR(1) sample

np.random.seed(0)
rs = np.random.randn(200)
xs = [0]
for r in rs:
    xs.append(xs[-1] * 0.9 + r)
df = pd.DataFrame(xs, columns=['data'])

n = 5  # number of points to be checked before and after

# Find local peaks

df['min'] = df.iloc[argrelextrema(df.data.values, np.less_equal,
                    order=n)[0]]['data']
df['max'] = df.iloc[argrelextrema(df.data.values, np.greater_equal,
                    order=n)[0]]['data']

# Plot results

plt.scatter(df.index, df['min'], c='r')
plt.scatter(df.index, df['max'], c='g')
plt.plot(df.index, df['data'])
plt.show()

一些要点：

之后可能需要检查这些点，以确保没有非常接近的绳线点
您可以使用n过滤噪声点
argrelextrema返回一个元组，最后的[0]提取一个numpy数组

寻找局部最大值和最小值

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档