当前位置: 首页 > 知识库问答 >
问题:

如何使用alfresco和tesseact将tiff转换为可搜索的pdf?

邢曦
2023-03-14

我想皈依*。可搜索的PDF文件*。使用alfresco和tesseract OCR的PDF文件。

tesseract版本3.03需要编译,我需要使用源代码生成设置。有没有其他解决办法。有人能帮忙吗?

共有2个答案

司马腾
2023-03-14

您可以使用另一个工具,直接执行pdf到可搜索pdf的转换。此工具正在内部使用tesseract进行此转换。您可以在下面的链接中找到更多详细信息,并将其配置为alfresco。

http://ubuntuforums.org/showthread.php?t=1456756

命令

input.pdfoutput.pdf

柏高洁
2023-03-14

您将需要Tesseract 3.03或更高版本的可搜索PDF输出功能

tesseract yourimage.tif out pdf
 类似资料:
  • 需要一个解决方案来转换PDF文件,其中每个页面都是图像,页面可以包含文本,表格或两者的组合到可搜索的pdf。 我使用了ABBY FineReader Online,这项工作做得非常好,但我正在寻找一个可以通过Windows Python实现的解决方案 我已经做了详细的分析,下面的链接接近我想要的,但并不准确: 扫描图像/PDF到可搜索图像/PDF 它告诉我们首先要使用Ghost脚本将其转换为图像,

  • 问题内容: 最近,当我尝试显示图像文件时遇到问题。不幸的是,图像格式是TIFF格式,主要的网络浏览器不支持该格式(因为我知道Safari仅支持该格式)。由于某些限制,我必须将此格式转换为主流浏览器支持的其他格式。但是,当我尝试转换格式时,这给我带来了很多问题。 我已经在网上搜索过,尽管在此链接中发布了类似的问题,但我如何在Java中将TIF转换为PNG?“但是我无法获得建议的结果。 因此,我再次提

  • 问题内容: 我正在尝试处理JSON文件: 我希望能够: 更新键值对上的值 删除键/值 删除或插入一个数组值 我已经做了很多事情来解决这个问题。 我的简化代码思路是: 生成的JSON应该是: 我不确定如何使用这种结构的JSON。 问题答案: 我了解您的JSON可能如下所示: 我建议使用OpenStruct来组织数据: 然后,您得到了所有想要的东西。对于您显示的操作: 然后,进行更改后,可以使用: 您

  • 问题内容: 我正在寻找将JPEG文件流转换为TIFF文件的Java API。我查看了JAI,但未找到与我正在查看的内容类似的内容。 有人可以指出我要这样做的一个好的API吗? 问题答案: 这里有一个例子 http://log.robmeek.com/2005/08/write-tiff-in- java.html

  • 问题内容: 我有一台保存TIFF图像的服务器。大多数客户端可以读取和显示TIFF图像,因此没有问题。但是,某些客户端无法处理此格式,但可以处理JPG。我想到了使用PHP的GD库为没有TIFF阅读能力的客户端进行服务器端转换。但是我注意到GD也无法读取TIFF文件。 Imagick无法在Windows中工作,我的想法是创建一个imageFetcher.php,它将获取客户端所需的实际图像作为参数。它

  • 问题内容: 我需要一个Java库将PDF转换为TIFF图像。PDF是传真,我将转换为TIFF,以便随后可以在图像上进行条形码识别。谁能推荐一个很好的免费开源库,将其从PDF转换为TIFF? 问题答案: 免责声明:我为Atalasoft工作 我们有一个可以将PDF转换为TIFF的SDK。渲染由Foxit软件提供支持,该软件可提供功能强大且高效的PDF渲染器。