OCR(Optical Character Recognition 光学字符识别)扫盲

连坚白
2023-12-01

了解OCR

     OCR是英文Optical Character Recognition 的缩写,中文意思就是通过光学技术对文字进行识别。OCR概念的产生是在1929年,德国的科学家Tausheck首先提出了OCR的概念,并且申请了专利。几年后,美国科学家Handel也提出了利用技术对文字进行识别的想法。但这种梦想直到计算机的诞生才变成了现实。现在这一技术已经由计算机来实现,OCR的意思就演变成为利用光学技术对文字和字符进行扫描识别,转化成计算机内码。
  我国在OCR技术方面的研究工作起步较晚,在70年代才开始对数字、英文字母及符号的识别进行研究,70年代末开始进行汉字识别的研究,到1986年汉字识别的研究进入一个实质性的阶段,取得了较大的成果,不少研究单位相继推出了中文OCR产品。我国OCR都是有 OMR演变过来的,我国的一些研究部门在 80年代初就开始对OCR识别进行研究,如:清华的吴估寿教授、丁晓青教授、夏莹教授、北大的顾小凤教授、北信的张昕中教授、中科院的刘品平博士、李明敬博士可以称作我国OCR研究开发队伍中的导航人,为此付出了不懈努力。二十多年的研究开发积累了大量人才,专家就有上百人。在中关村的硅谷地带,我国的OCR专家多达20多位,他们也为我国的信息领域留下了自己奋斗的足迹。我国目前使用的文本型OCR软件主要有清华文通TH-OCR、北信BI-OCR、中自ICR、沈阳自动化所SY-OCR、北京曙光公司NI-OCR(已被中自汉王并购)等,匹配的扫描仪则使用市面上的平板扫描仪。
      中文OCR即采用扫描仪、数码相机等输入设备,把中文印刷体的文稿送入计算机并以计算机文档表示出来的高新技术。中文印刷体识别技术(OCR)主要用于文字和表格输入,可以用扫描仪将整页的印刷文稿或者表格输入计算机,由计算机上的识别系统自动生成汉字文件,替代人工键入汉字和表格的工作。
       中文OCR有普及版和专业版之分,现在市场上扫描仪捆绑的OCR软件均为普及版。目前印刷体OCR的识别技术已经达到可以实用的程度,即使对印刷质量较差的文字的识别率也达到95%以上。由于手写体OCR技术的限制,专业型OCR系统的产品多是面向特定的行业,即适用于每天需处理大量表格信息录入的部门,如邮政、税务、海关、统计等等。这种面向特定行业的专业型OCR系统信息格式较为固定,识别的字符集相对小,经常与专用的输入设备结合使用,因此具有速度快、效率高等特点。在国外已经被广泛地应用,充分发挥着作用。在我国随着计算机应用的深入,这方面的需求已经出现。专业版 OCR有批处理功能,性能更加优化,识别率也不同于普通版OCR。国家的"863计划"对OCR技术的研究给予了很大的资助,促进了OCR的重大成果的取得。如"863"项目的启用者汉王最新推出的专业版"新世纪OCR",将我国当今的OCR技术推进了新的巅峰。它的特点主要是:识别率大幅度提高,尤其是对中英文混排文稿,识别率为99%。可识别宋、仿宋、楷、隶、行等八种印刷字体,对数字、标点符号的识别也可点可圈;对表格识别也有了一定的突破,无论横版、竖版、中文表格、图文混排文件都能识别,自动版面分析和识别功能也大大加强。
      从80年代开始,OCR的研究开发就一直受到国家"863"计划的资助,我国在信息技术领域付出的努力,已经有了初步的回报。目前我们正在实现将OCR软件针对表格形式的特征设计了大量的优化功能,使得识别精度更高、识别速度更快,并且为适应不同环境的使用提供了多种识别方式选项,支持单机和网络操作,极大地方便了使用,使应用范围更加广泛,能达到各种不同用户的应用要求。我们相信经过众多专家或专业人士的努力,及国家在信息产业领域的大力资助,使OCR进入到网络的各个领域,会有更多的新品种奉献给我们的用户,OCR技术将会有一个质的飞跃。 

OCR的用途有哪些?
1) 办公自动化
工厂企业、公司及事业单位的日常办公用文件及资料等需要输入计算机存储检索。使用OCR,既比存储图像文件大大地节省存储量,又不需要专职录入人员,是减轻劳动量、节约资金、提高办公效率的最好措施。
2) 建立中文资料库
要大量输入各种文书、刊、报及文件,使用OCR可以缩短建库时间,减轻劳动强度,降低费用。
3) 打字公司、书刊出版社、报社等
使用OCR可以自动录入已经出版的文章和打印文件,稍加修改编辑成新文章或再版己有书刊。OCR输出的标准汉字代码文件可为大多数中文处理系统、轻印刷系统、照排系统所接受,可重新打印、印刷输出。
4) 图书馆、文献中心
用本系统自动录入图书有关信息,可建立书目数据库自动录入经典图书全文,将纸上文字转移到计算机内,便于保存、查找、检索,更大的好处可以提供给专家用计算机对书籍内容进行研究。
5) 机器翻译
机器翻译的第一步是将全文输入计算机。利用OCR可以将机器自动翻译相匹配,实现高速自动翻译。
6) 个人使用
当您阅读资料时,可用OCR将您感兴趣的段落自动录入。特别是作家,利用本软件可以将一些书载历史资料或文献快速录入到计算机内。

 类似资料: