1.5. Data

优质

小牛编辑

123浏览

2023-12-01

AI对数据的质量、规模和场景化方面的要求越来越高

数据：由于缺乏足够数量的标注数据而使项目无法展开的情况比比皆是。由于无法以合理的价格获取训练数据，很多好创意被迫放弃。2

1.5.1. 数据标注1

数据标注就是通过数据标注员借助标注工具，对人工智能学习数据进行加工的一种行为。

此外，人工智能落地应用从通用场景过渡到特定场景也带来了数据需求量的几何级提升。目前数据标注行业仍属于劳动密集型产业，数据标注服务商扩大产能最常用的方式就是扩充标注团队人数，用数量提高数量，但与之相对应的是人力成本的飙升。

1.5.2. 版本控制3

机器学习其实是一种特殊的软件开发，有着自己特定的要求。首先，机器学习中会变化的部分不止一种，而是两种：代码和数据。其次，模型训练的方式是（快速）迭代，并且代码中的差异会很大（比如拆分、预处理、模型）。

只要数据发生更改，就需要保存一个版本，这样才能保证能复现结果以及重复执行实验和训练模型。简单粗暴的版本控制（硬拷贝）具有很大的改进空间，不过尤其是在团队共享的情况下，能够保持不变的版本控制是至关重要的。

https://github.com/iterative/dvc

1.5.3. 有意义5

专业的机器学习工程师会询问许多困难的问题来找出什么才是真正重要的领域，以及那些领域将如何对该应用程序输出结果产生影响。

数据本身是无限的，我们能够采集获取到的数据是非常有限和垂直的，我们不可能完全依据采集到的数据去做决策。对于目标的拆解的精细度，合理性也决定了机器决策无法可能是短视的，有偏见的等等。

1.5.4. 特色5

基于你们团队已经拥有的一部分知识之上进行拓展这个问题来找出；只有你们知道并理解的信息并以此创建一个独特的数据集。

1.5.5. 数据孤岛

为了更好的应对形势变化，解决数据共享需求与隐私泄露和数据滥用之间的矛盾，蚂蚁金服提出了希望通过技术手段，确保多方在使用数据共享学习的同时，能做到：用户隐私不会被泄露，数据使用行为可控，我们称之为共享机器学习（Shared Machine Learning）。4

共享机器学习的定义：在多方参与且各数据提供方与平台方互不信任的场景下，能够聚合多方信息并保护参与方数据隐私的学习范式。从 17 年开始，蚂蚁金服就一直在共享机器学习方向进行探索和研究，在结合了 TEE 与 MPC 两条路线的同时，结合蚂蚁的自身业务场景特性，聚焦于在金融行业的应用。蚂蚁金服共享机器学习方案拥有如下特性：多种安全计算引擎整合，可基于不同业务场景来选择合适的安全技术。既有基于 TEE 的集中式解决方案，也有基于 MPC 的分布式解决方案；既可满足数据水平切分的场景，也能解决数据垂直切分的诉求；既可以做模型训练，也可以做模型预测。

支持多种机器学习算法以及各种数据预处理算子。支持的算法包括但不限于 LR，GBDT，Xgboost，DNN，CNN，RNN，GNN 等。

大规模集群化。支持大规模集群化，提供金融级的高效、稳定、系统化的支撑。

1.5.6. 开源数据集

https://tianchi.aliyun.com/dataset https://ai.facebook.com/blog/a-new-open-data-set-for-multilingual-speech-research/

1.5.7. d8 包

d8是一个Python包，它允许你通过几行Python代码在各种机器学习框架中使用自己的数据集。它还提供了数百个内置的数据集，具有很大的多样性，以测试您的机器学习算法。6

1.5.8. 数据治理

数据治理一直是 AI 落地的顽固阻力，过去，技术人员花了大量时间在整理数据、清洗数据、数据一致性等问题上，Sage AIOS 形成了叫“数据形式”的统一标准，其作用类似于 Windows 中的“文件格式”，它将 IT 知识、数据知识、业务知识等融合在一起，满足数据在一致性、时序性、闭环的要求，数据形式可大幅提升企业使用人工智能的应用效率。8

1.5.9. 人工干预

如果完全依据数据决策，那在信息流平台上，有可能会看到非常多的低俗内容。人工干预仍是不可忽视的一部分。

1.5.10. 语料库

那当然是因为预训练选择的语料库非常重要！如同其他的迁移学习场景一样，如果预训练的数据源和你手头任务的数据相近，最后的性能当然会更好。举个栗子，受不同的语言风格影响，用维基百科的语料库预训练的模型在微博上的效果非常有限。