4. 数据集转换
优质
小牛编辑
132浏览
2023-12-01
scikit-learn 提供了一个用于转换数据集的库, 它也许会 clean(清理)(请参阅 预处理数据), reduce(减少)(请参阅 无监督降维), expand(扩展)(请参阅 内核近似)或 generate(生成)(请参阅 特征提取) feature representations(特征表示).
像其它预估计一样, 它们由具有 fit
方法的类来表示, 该方法从训练集学习模型参数(例如, 归一化的平均值和标准偏差)以及将该转换模型应用于 transform
方法到不可见数据. 同时 fit_transform
可以更方便和有效地建模与转换训练数据.
将 Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器 中 transformers(转换)使用并行的或者串联的方式合并到一起. 成对的矩阵, 类别和核函数 涵盖将特征空间转换为 affinity matrices(亲和矩阵), 而 预测目标 (y) 的转换 考虑在 scikit-learn 中使用目标空间的转换(例如. 标签分类).
- 4.1. Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器
- 4.1.1. Pipeline: 链式评估器
- 4.1.1.1. 用法
- 4.1.1.2. 注意点
- 4.1.1.3. 缓存转换器:避免重复计算
- 4.1.2. FeatureUnion(特征联合): 个特征层面
- 4.1.2.1. 用法
- 4.1.1. Pipeline: 链式评估器
- 4.2. 特征提取
- 4.2.1. 从字典类型加载特征
- 4.2.2. 特征哈希(相当于一种降维技巧)
- 4.2.2.1. 实现细节
- 4.2.3. 文本特征提取
- 4.2.3.1. 话语表示
- 4.2.3.2. 稀疏
- 4.2.3.3. 常见 Vectorizer 使用方法
- 4.2.3.4. Tf–idf 项加权
- 4.2.3.5. 解码文本文件
- 4.2.3.6. 应用和实例
- 4.2.3.7. 词语表示的限制
- 4.2.3.8. 用哈希技巧矢量化大文本语料库
- 4.2.3.9. 使用 HashingVectorizer 执行外核缩放
- 4.2.3.10. 自定义矢量化器类
- 4.2.4. 图像特征提取
- 4.2.4.1. 补丁提取
- 4.2.4.2. 图像的连接图
- 4.3. 预处理数据
- 4.3.1. 标准化,也称去均值和方差按比例缩放
- 4.3.1.1. 将特征缩放至特定范围内
- 4.3.1.2. 缩放稀疏(矩阵)数据
- 4.3.1.3. 缩放有离群值的数据
- 4.3.1.4. 核矩阵的中心化
- 4.3.2. 非线性转换
- 4.3.3. 归一化
- 4.3.4. 二值化
- 4.3.4.1. 特征二值化
- 4.3.5. 分类特征编码
- 4.3.6. 缺失值插补
- 4.3.7. 生成多项式特征
- 4.3.8. 自定义转换器
- 4.3.1. 标准化,也称去均值和方差按比例缩放
- 4.4. 无监督降维
- 4.4.1. PCA: 主成份分析
- 4.4.2. 随机投影
- 4.4.3. 特征聚集
- 4.5. 随机投影
- 4.5.1. Johnson-Lindenstrauss 辅助定理
- 4.5.2. 高斯随机投影
- 4.5.3. 稀疏随机矩阵
- 4.6. 内核近似
- 4.6.1. 内核近似的 Nystroem 方法
- 4.6.2. 径向基函数内核
- 4.6.3. 加性卡方核
- 4.6.4. Skewed Chi Squared Kernel (偏斜卡方核?暂译)
- 4.6.5. 数学方面的细节
- 4.7. 成对的矩阵, 类别和核函数
- 4.7.1. 余弦相似度
- 4.7.2. 线性核函数
- 4.7.3. 多项式核函数
- 4.7.4. Sigmoid 核函数
- 4.7.5. RBF 核函数
- 4.7.6. 拉普拉斯核函数
- 4.7.7. 卡方核函数
- 4.8. 预测目标 (
y
) 的转换- 4.8.1. 标签二值化
- 4.8.2. 标签编码