docTR

OCR 文档文本识别库
授权协议 Apache-2.0
开发语言 Python
所属分类 应用工具、 图形和图像工具
软件类型 开源软件
地区 不详
投 递 者 慕高格
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

由 TensorFlow 2 和 PyTorch 提供支持,任何人都可以无缝访问光学字符识别

OCR_example

获取预训练模型

使用两阶段方法在 docTR 中实现端到端 OCR:文本检测(定位单词),然后文本识别(识别单词中的所有字符)。因此,可以从可用实现列表中选择用于文本检测的架构和用于文本识别的架构。

from doctr.models import ocr_predictor

model = ocr_predictor(det_arch='db_resnet50', reco_arch='crnn_vgg16_bn', pretrained=True)

读取文件

可以从 PDF 或图像解释文档:

from doctr.io import DocumentFile
# PDF
pdf_doc = DocumentFile.from_pdf("path/to/your/doc.pdf").as_images()
# Image
single_img_doc = DocumentFile.from_images("path/to/your/img.jpg")
# Webpage
webpage_doc = DocumentFile.from_url("https://www.yoursite.com").as_images()
# Multiple page images
multi_img_doc = DocumentFile.from_images(["path/to/page1.jpg", "path/to/page2.jpg"])

以默认的预训练模型为例:

from doctr.io import DocumentFile
from doctr.models import ocr_predictor

model = ocr_predictor(pretrained=True)
# PDF
doc = DocumentFile.from_pdf("path/to/your/doc.pdf").as_images()
# Analyze
result = model(doc)

安装

安装 docTR 需要 Python 3.6(或更高版本)和 pip

由于使用了 weasyprint,如果没有运行在 Linux 系统之上,将需要额外的依赖项。

对于 macOS 用户,可以按如下方式安装它们:

brew install cairo pango gdk-pixbuf libffi

对于 Windows 用户,这些依赖项包含在 GTK 中。

最新版本

可以使用 pypi 安装最新版本的软件包,如下所示:

pip install python-doctr
 相关资料
  • 借助ML Kit的文本识别API,您可以识别任何拉丁语文本(以及更多的基于云端的文本识别)。 文本识别可以自动完成信用卡,收据和名片等繁琐数据输入,或帮助组织照片。借助基于云的API,您可以从文档中提取文本,您可以使用它来增加辅助功能或翻译文档。应用程序甚至可以实时追踪真实世界的对象,例如通过读取列车上的数字。 iOS Android 您可以在设备API或者云端API中选择 设备上 云端 价格 免

  • 我正在尝试使用NLP技术在下面的文本行中查找课程。 这是我的错 我可以从这一行中提取课程吗? 在我真正的项目中,我将得到很多文件,我需要从这些文件中获得课程名称。 感谢您的帮助!

  • 通过大规模服务中积累的风控经验和高价值数据,运用深度学习技术,精准区分真人和照片/视频,防御各类非真人的人脸攻击。提供离线活体检测、图片/视频防 hack 检测产品。

  • 我是文本挖掘和NLP的新手。我正在尝试使用命名实体识别(NER)(斯坦福命名实体标记)从给定文本中提取日期。我正在使用斯坦福NLPhttp://nlp.stanford.edu:8080/ner/process和GATE ANNIE中提供的在线演示http://services.gate.ac.uk/annie/ 此演示无法将完整的“上周日”、“下周一”、“本月底”、“直到本周日晚上”等文本识别为

  • 我从https://cloud.google.com/speech/docs/sync-recognize的谷歌云语音api同步语音识别文档中复制了信息到我的代码中,但是当我运行代码时,我收到了很多错误: 这是我的代码: 有人能帮我修复这个错误吗? 以下是采纳索拉克建议后的第二批错误:

  • 本文档的目的是全面地讲解 Node.js 的 API,既从参考角度也从概念角度。 每个章节介绍一个内置模块或高级概念。需要时,属性类型、方法参数、以及提供给事件处理函数的参数都会在主题标题下的列表中详细说明。 稳定性 文档中有每个章节的稳定性标志。 Node.js 的 API 仍会有少量变化,但随着发展,部分 API 会更稳定可靠。 有些 API 久经验证、且被大量依赖,它们几乎不会再变化。 也有

  • 突然之间,网络Storm对我来说不认识Javascript了。 如果我添加这样的文件: 之后我在IDE中看到的是: 如果我刷新,重新启动Webstorm,它仍然无法识别文件!网络Storm已无法使用!

  • 树洞 OCR 文字识别是一款跨平台的 OCR 小工具 下载地址:百度网盘 提取码:m6d8 xxx-with-jre.xx 是完整版,带运行环境;如果精简版不能正常工作,请下载完整版使用; 文字识别使用了各云平台开发的识别接口,因此需要联网才能正常使用; 安装路径请勿包含中文字符; 本程序使用 JavaFX 开发,使用前请务必安装 Java8 运行环境(完整版无需安装 Java8)。 程序使用 启