4. 数据集转换

优质
小牛编辑
129浏览
2023-12-01

scikit-learn 提供了一个用于转换数据集的库, 它也许会 clean(清理)(请参阅 预处理数据), reduce(减少)(请参阅 无监督降维), expand(扩展)(请参阅 内核近似)或 generate(生成)(请参阅 特征提取) feature representations(特征表示).

像其它预估计一样, 它们由具有 fit 方法的类来表示, 该方法从训练集学习模型参数(例如, 归一化的平均值和标准偏差)以及将该转换模型应用于 transform 方法到不可见数据. 同时 fit_transform 可以更方便和有效地建模与转换训练数据.

将 Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器 中 transformers(转换)使用并行的或者串联的方式合并到一起. 成对的矩阵, 类别和核函数 涵盖将特征空间转换为 affinity matrices(亲和矩阵), 而 预测目标 (y) 的转换 考虑在 scikit-learn 中使用目标空间的转换(例如. 标签分类).

  • 4.1. Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器
    • 4.1.1. Pipeline: 链式评估器
      • 4.1.1.1. 用法
      • 4.1.1.2. 注意点
      • 4.1.1.3. 缓存转换器:避免重复计算
    • 4.1.2. FeatureUnion(特征联合): 个特征层面
      • 4.1.2.1. 用法
  • 4.2. 特征提取
    • 4.2.1. 从字典类型加载特征
    • 4.2.2. 特征哈希(相当于一种降维技巧)
      • 4.2.2.1. 实现细节
    • 4.2.3. 文本特征提取
      • 4.2.3.1. 话语表示
      • 4.2.3.2. 稀疏
      • 4.2.3.3. 常见 Vectorizer 使用方法
      • 4.2.3.4. Tf–idf 项加权
      • 4.2.3.5. 解码文本文件
      • 4.2.3.6. 应用和实例
      • 4.2.3.7. 词语表示的限制
      • 4.2.3.8. 用哈希技巧矢量化大文本语料库
      • 4.2.3.9. 使用 HashingVectorizer 执行外核缩放
      • 4.2.3.10. 自定义矢量化器类
    • 4.2.4. 图像特征提取
      • 4.2.4.1. 补丁提取
      • 4.2.4.2. 图像的连接图
  • 4.3. 预处理数据
    • 4.3.1. 标准化,也称去均值和方差按比例缩放
      • 4.3.1.1. 将特征缩放至特定范围内
      • 4.3.1.2. 缩放稀疏(矩阵)数据
      • 4.3.1.3. 缩放有离群值的数据
      • 4.3.1.4. 核矩阵的中心化
    • 4.3.2. 非线性转换
    • 4.3.3. 归一化
    • 4.3.4. 二值化
      • 4.3.4.1. 特征二值化
    • 4.3.5. 分类特征编码
    • 4.3.6. 缺失值插补
    • 4.3.7. 生成多项式特征
    • 4.3.8. 自定义转换器
  • 4.4. 无监督降维
    • 4.4.1. PCA: 主成份分析
    • 4.4.2. 随机投影
    • 4.4.3. 特征聚集
  • 4.5. 随机投影
    • 4.5.1. Johnson-Lindenstrauss 辅助定理
    • 4.5.2. 高斯随机投影
    • 4.5.3. 稀疏随机矩阵
  • 4.6. 内核近似
    • 4.6.1. 内核近似的 Nystroem 方法
    • 4.6.2. 径向基函数内核
    • 4.6.3. 加性卡方核
    • 4.6.4. Skewed Chi Squared Kernel (偏斜卡方核?暂译)
    • 4.6.5. 数学方面的细节
  • 4.7. 成对的矩阵, 类别和核函数
    • 4.7.1. 余弦相似度
    • 4.7.2. 线性核函数
    • 4.7.3. 多项式核函数
    • 4.7.4. Sigmoid 核函数
    • 4.7.5. RBF 核函数
    • 4.7.6. 拉普拉斯核函数
    • 4.7.7. 卡方核函数
  • 4.8. 预测目标 (y) 的转换
    • 4.8.1. 标签二值化
    • 4.8.2. 标签编码