1,极值分析
通过scatterplots,histogramas, box和whisker plot分析极值。
查看样本分布(假设高斯分布),去距离1/4和3/4值2-3倍标准差数值的样本。
2,临近方法
基于k-means分析样本质心,去掉离质心特别远的样本。
3,投影方法
通过PCA,SOM,sammon mapping去掉不重要特征。