4. 数据集转换

优质

小牛编辑

135浏览

2023-12-01

scikit-learn 提供了一个用于转换数据集的库, 它也许会 clean（清理）（请参阅预处理数据）, reduce（减少）（请参阅无监督降维）, expand（扩展）（请参阅内核近似）或 generate（生成）（请参阅特征提取） feature representations（特征表示）.

像其它预估计一样, 它们由具有 fit 方法的类来表示, 该方法从训练集学习模型参数（例如, 归一化的平均值和标准偏差）以及将该转换模型应用于 transform 方法到不可见数据. 同时 fit_transform 可以更方便和有效地建模与转换训练数据.

将 Pipeline（管道）和 FeatureUnion（特征联合）: 合并的评估器中 transformers（转换）使用并行的或者串联的方式合并到一起. 成对的矩阵, 类别和核函数涵盖将特征空间转换为 affinity matrices（亲和矩阵）, 而预测目标 (y) 的转换考虑在 scikit-learn 中使用目标空间的转换（例如. 标签分类）.

4.1. Pipeline（管道）和 FeatureUnion（特征联合）: 合并的评估器
- 4.1.1. Pipeline: 链式评估器
  - 4.1.1.1. 用法
  - 4.1.1.2. 注意点
  - 4.1.1.3. 缓存转换器：避免重复计算
- 4.1.2. FeatureUnion（特征联合）: 个特征层面
  - 4.1.2.1. 用法
4.2. 特征提取
- 4.2.1. 从字典类型加载特征
- 4.2.2. 特征哈希（相当于一种降维技巧）
  - 4.2.2.1. 实现细节
- 4.2.3. 文本特征提取
  - 4.2.3.1. 话语表示
  - 4.2.3.2. 稀疏
  - 4.2.3.3. 常见 Vectorizer 使用方法
  - 4.2.3.4. Tf–idf 项加权
  - 4.2.3.5. 解码文本文件
  - 4.2.3.6. 应用和实例
  - 4.2.3.7. 词语表示的限制
  - 4.2.3.8. 用哈希技巧矢量化大文本语料库
  - 4.2.3.9. 使用 HashingVectorizer 执行外核缩放
  - 4.2.3.10. 自定义矢量化器类
- 4.2.4. 图像特征提取
  - 4.2.4.1. 补丁提取
  - 4.2.4.2. 图像的连接图
4.3. 预处理数据
- 4.3.1. 标准化，也称去均值和方差按比例缩放
  - 4.3.1.1. 将特征缩放至特定范围内
  - 4.3.1.2. 缩放稀疏（矩阵）数据
  - 4.3.1.3. 缩放有离群值的数据
  - 4.3.1.4. 核矩阵的中心化
- 4.3.2. 非线性转换
- 4.3.3. 归一化
- 4.3.4. 二值化
  - 4.3.4.1. 特征二值化
- 4.3.5. 分类特征编码
- 4.3.6. 缺失值插补
- 4.3.7. 生成多项式特征
- 4.3.8. 自定义转换器
4.4. 无监督降维
- 4.4.1. PCA: 主成份分析
- 4.4.2. 随机投影
- 4.4.3. 特征聚集
4.5. 随机投影
- 4.5.1. Johnson-Lindenstrauss 辅助定理
- 4.5.2. 高斯随机投影
- 4.5.3. 稀疏随机矩阵
4.6. 内核近似
- 4.6.1. 内核近似的 Nystroem 方法
- 4.6.2. 径向基函数内核
- 4.6.3. 加性卡方核
- 4.6.4. Skewed Chi Squared Kernel (偏斜卡方核?暂译)
- 4.6.5. 数学方面的细节
4.7. 成对的矩阵, 类别和核函数
- 4.7.1. 余弦相似度
- 4.7.2. 线性核函数
- 4.7.3. 多项式核函数
- 4.7.4. Sigmoid 核函数
- 4.7.5. RBF 核函数
- 4.7.6. 拉普拉斯核函数
- 4.7.7. 卡方核函数
4.8. 预测目标 (y) 的转换
- 4.8.1. 标签二值化
- 4.8.2. 标签编码