HUAWEI ML Kit

华为机器学习服务示例代码
授权协议 Apache
开发语言 Java
所属分类 神经网络/人工智能、 机器学习/深度学习
软件类型 开源软件
地区 国产
投 递 者 钮善
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

这是华为机器学习服务(HUAWEI ML Kit)的示例代码, 通过此代码可以快速了解如何集成机器学习服务提供的各项能力,如人脸检测、文本识别、图像分割等服务

华为机器学习服务为您提供丰富的文本类、语音语言类、图像类和人脸人体类服务API,打造AI新体验,轻松构建您的AI应用。

服务介绍:

文本类

  • 文本识别:可以识别收据、名片、文档照片等含文字的图片,将其中的文本信息提取出来。
  • 文档识别:可以从含有文档的图片中,比如文章、合同等,能识别出带段落格式的文本信息。
  • 身份证识别:支持从带有身份证信息的图像或视频流中,识别出带格式的文本信息。
  • 银行卡识别:可以快速识别卡号信息,覆盖全球常见卡证类型,包括银联、美国运通、万事达(Mastercard)、Visa、JCB等。
  • 通用卡证识别:针对港澳通行证、香港身份证、回乡证等任意固定版式的卡证,基于文字识别技术,提供通用的开发框架,帮助开发者自定义后处理逻辑获取所需信息。
  • 表格识别:利用AI技术从输入的图片中识别并返回表格结构信息(包括单元格的行列信息和坐标信息)和表格中的文本信息(包括单元格内的文本内容)。

语音语言类

  • 在线文本翻译:支持将源语言文字通过云侧服务器翻译为目标语言文字。
  • 离线文本翻译:支持在下载离线模型后,可以在没有网络的情况下将源语言文字翻译为目标语言文字。
  • 在线语种检测:支持在线检测文本的语种,既支持检测单语种文本,也支持检测混合语种文本。
  • 离线语种检测:可以在没有网络的情况下检测出文本的语种,既支持检测单语种文本,也支持检测混合语种文本。
  • 实时语音识别:支持实时将短语音(时长不超过60秒)转换为文本。
  • 语音合成:支持在线将文字信息转换为语音输出,能够实时输出音频数据,并且提供丰富的音色以及可通过调整音量、语速从而使发音达到更加真实自然的效果。
  • 离线语音合成:支持下载离线模型后,即便在无网络环境下也可以将文字信息转换为语音。
  • 音频文件转写:可以将5小时内的音频文件转换成文字,支持输出标点符号,以及能够生成带有时间戳的文本信息,目前支持中英文的转写。
  • 个性化讲解视频生成:个性化讲解视频生成服务可以根据课件和讲解词自动生成讲解视频,降低视频制作过程中的投入成本,提高制作效率。
  • 实时语音转写:支持将输入的长语音(时长不超过5小时)实时转换为文本,支持输出标点符号,同时可以生成带有时间戳的文本信息。
  • 声音识别:支持通过在线(实时录音)模式检测声音事件,基于检测到的声音事件可以帮助开发者进行后续指令动作。

图像类

  • 图片分类:通过对图片中的实体对象添加标注信息,如:人、物、环境、活动、艺术形式等信息,帮助定义图片题材和适用场景等。
  • 对象检测和跟踪:您可以对图片中多个对象进行位置信息的跟踪与检测,基于此服务您可以实时定位和跟踪对象、对象分类等。
  • 地标识别:您会获得输入图片的地标名称、经纬度信息,基于获得的信息,您可以为用户创造更加个性化应用体验。
  • 图像分割:可以将图片中不同元素的内容分割出来。
  • 拍照购物:用户通过拍摄商品图片,在预先建立的商品图片库中在线检索同款或相似商品信息,返回相似商品ID和相关信息。
  • 图像超分辨率:提供1x和3x的超分功能,1x超分去除压缩噪声,3x超分不仅有效抑制压缩噪声,而且提供3倍的放大能力。
  • 文档校正:可以自动识别文档在图片中的位置,根据识别到的位置信息校正拍摄角度,同时支持用户自定义边界点位置进行文档校正,从而拍摄出文档正面图像。
  • 文字图像超分辨率:可以对包含文字内容的图片进行3倍放大,同时显著增强图像中文字的清晰度。
  • 场景识别:通过对图片的场景内容进行分类并添加标注信息,如:室外风景、室内场所、建筑物等,辅助理解图像内容。

人脸人体类

  • 人脸检测:支持检测人脸2D及3D轮廓。2D人脸检测能够识别人脸面部特征,包含表情、年龄、性别、穿戴等信息。3D人脸检测能够获取人脸关键点坐标信息、3D投影矩阵信息,以及人脸偏转角度等信息。
  • 人体骨骼检测:支持检测人体各部位关键点,能够返回关键点的人体骨骼位置数据,如:头顶、脖子、肩、肘、手腕、髋、膝盖、脚踝等。
  • 活体检测:支持不需要用户配合做动作即可识别业务场景中的用户是否为真人。
  • 手势识别:提供手部关键点识别和手势识别能力,支持检测21个手部关键点,返回关键点的位置数据。
  • 人脸比对:人脸比对服务通过识别并提取模板中的人脸特征,将模板人像和人脸图像进行高精度比对,输出相似度值,进而判断两者是否为同一个人。

自然语言处理类
文本嵌入:支持输入需要查询的中英文的词或句子,查询对应的向量值,并在此基础上做进一步研究。

自定义模型
自定义模型服务可以帮助您定制新的模型,您可以先通过模型开发在应用中快速训练和生成模型。生成后的模型可以随应用一起打包,也可以将其上传到ML Kit模型托管平台进行托管,通过ML Kit SDK实现模型的下载和更新。最后您可以使用ML Kit SDK,通过此自定义模型进行推理。

  • 端侧推理框架:是机器学习服务推出的便于集成开发运行到端侧设备上的机器学习推理框架,通过引入此推理框架,您能够最小成本的定义自己的模型并实现模型推理。
  • 模型开发:提供了迁移学习和模型转换能力,目前已经为您做好了模型训练的准备工作,方便您在应用程序中快速训练和生成新模型,通过此功能进行迁移学习和模型转换,不仅灵活度高,同时也降低了学习成本。
  • 模型部署与推理:机器学习服务支持将模型放在本地集成或通过云端托管模型,可以将模型随应用一起打包,也可以将其上传到ML Kit模型托管平台进行托管,通过ML Kit SDK实现模型的下载和更新。
  • 预置模型:是开发者根据机器学习服务指定的基础模型以重新训练的方式来获取新模型,也是机器学习服务提供的最简单的端到端自定义模型解决方案,当前提供了图片分类和文本分类预置模型。
 相关资料
  • 本文为周志华《机器学习》的学习笔记,记录了本人在学习这本书的过程中的理解思路以及一些有助于消化书内容的拓展知识,笔记中参考了许多网上的大牛经典博客以及李航《统计学习》的内容,向前辈们和知识致敬!

  • Python 有着海量的可用于数据分析、统计以及机器学习的库,这使得 Python 成为很多数据科学家所选择的语言。 下面我们列出了一些被广泛使用的机器学习及其他数据科学应用的 Python 包。 Scipy 技术栈 Scipy 技术栈由一大批在数据科学中被广泛使用的核心辅助包构成,可用于统计分析与数据可视化。由于其丰富的功能和简单易用的特性,这一技术栈已经被视作实现大多数数据科学应用的必备品了。

  • 主要内容 前言 课程列表 推荐学习路线 数学基础初级 程序语言能力 机器学习课程初级 数学基础中级 机器学习课程中级 推荐书籍列表 机器学习专项领域学习 致谢 前言 我们要求把这些课程的所有Notes,Slides以及作者强烈推荐的论文看懂看明白,并完成所有的老师布置的习题,而推荐的书籍是不做要求的,如果有些书籍是需要看完的,我们会进行额外的说明。 课程列表 课程 机构 参考书 Notes等其他资

  • 机器学习与人工智能学习笔记,包括机器学习、深度学习以及常用开源框架(Tensorflow、PyTorch)等。 机器学习算法 _图片来自scikit-learn_。 机器学习全景图 _图片来自http://www.shivonzilis.com/_。

  • 机器学习与人工智能学习笔记,包括机器学习、深度学习以及常用开源框架(Tensorflow、PyTorch)等。

  • 好不甘心,C++,通过85%,感觉思路比较清楚,有无大佬给点修改意见 int num; cin>>num; int a, b; vector<vector<int>> vec; int x = 1000000; int y = -1; while (cin >> a >> b) { //确定运行时间的左右区间 if (x > a) x = a; if (y < b) y = b; vector<i

  • “三个臭皮匠顶个诸葛亮”。集成学习就是利用了这样的思想,通过把多分类器组合在一起的方式,构建出一个强分类器;这些被组合的分类器被称为基分类器。事实上,随机森林就属于集成学习的范畴。通常,集成学习具有更强的泛化能力,大量弱分类器的存在降低了分类错误率,也对于数据的噪声有很好的包容性。

  • 题目描述: 静态扫描快速快速识别源代码的缺陷,静态扫描的结果以扫描报告作为输出: 1、文件扫描的成本和文件大小相关,如果文件大小为N,则扫描成本为N个金币 2、扫描报告的缓存成本和文件大小无关,每缓存一个报告需要M个金币 3、扫描报告缓存后,后继再碰到该文件则不需要扫描成本,直接获取缓存结果 给出源代码文件标识序列和文件大小序列,求解采用合理的缓存策略,最少需要的金币数。 输入描述: 第一行为缓存