当前位置: 首页 > 知识库问答 >
问题:

Tesseract ocr在与alfresco 5.0集成后无法正常工作。D

陆弘新
2023-03-14

我已经在Alfresco 5.0中集成了Tesseract ocr。d、 我的要求是将PDF文件数据转换为文本格式。

对于小文件来说,它工作得很好。

但是如果我上传更大的文件,比如超过50 MB,

在这种情况下,它给下面的异常,和整个pdf文件不被转换为文本文件。只有一些起始页被转换为文本格式。

请参考以下日志

java.net.SocketTimeoutException: Read timed out
    at java.net.SocketInputStream.socketRead0(Native Method)
    at java.net.SocketInputStream.socketRead(SocketInputStream.java:116)
    at java.net.SocketInputStream.read(SocketInputStream.java:170)
    at java.net.SocketInputStream.read(SocketInputStream.java:141)
    at sun.security.ssl.InputRecord.readFully(InputRecord.java:465)
    at sun.security.ssl.InputRecord.read(InputRecord.java:503)

有没有人遇到过同样的问题,请帮帮我。

提前谢谢。

共有2个答案

籍辰沛
2023-03-14

我有点惊讶。Alfresco已经包括负责制作PDF的PDFBox--

高海阳
2023-03-14

您可能需要在alfresco global中增加pdf到文本的内容转换大小。属性文件

您可以使用这些属性给出转换的大小

如果您正在使用OOoDirect

内容。变压器复杂的OpenOffice。Pdf2swf。扩展。医生。swf。maxSourceSizeKBytes=5120内容。变压器复杂的OpenOffice。Pdf2swf。扩展。docx。swf。maxSourceSizeKBytes=5120

如果您正在使用OOoJodConzer

content.transformer.complex.JodConverter.Pdf2swf.extensions.doc.swf.maxSourceSizeKBytes=5120
content.transformer.complex.OpenOffice.Pdf2swf.extensions.docx.swf.maxSourceSizeKBytes=5120

请参考此社区问题https://community.alfresco.com/thread/211670-changing-transformation-limits-version-5b

https://community.alfresco.com/thread/203406-how-to-config-alfresco-documents-preview-size-limit-on-42d

https://injustfiveminutes.wordpress.com/2012/11/28/docx-pptx-document-preview-fails-on-alfresco-4-2-c/

 类似资料:
  • 问题内容: 我只是想使用本机Java binarySearch,希望它总是可以找到第一个匹配项。但是它并不总是返回第一次出现的错误,我在这里做错了什么? ======== ===================================== 更新资料 现在看来,API并没有保证!谁能给我一个有关如何找到给定元素的第一个出现和最后一个出现的工作示例(例如User(10,null)? 非常感谢。

  • 问题内容: 我想在架构中 获取表的DDL 但是我的选择查询有效 我查询它是否仍然在桌子上: 问题答案: 从文档中: 如果授予非特权用户某种形式的对他人架构中对象的访问权限,则他们将能够通过Metadata API而不是对象的实际元数据来检索授予规范。 因此,除非您以特权用户身份连接,否则您将看不到其他用户对象的DDL。您将需要以身份进行连接,或者具有授予用户的角色才能获取XT的对象定义。 即使扮演

  • 问题内容: 我对django还是陌生的,我的CSS工作有问题。 我按照链接的指示进行操作:Django静态链接教程,有关处理静态文件。但是它仍然无法正常工作。 设定值 视图 index.html 和目录组织 非常感谢您的帮助和宝贵的时间! 问题答案: 为了让Django提供静态文件,你必须确保有几个设置。 STATIC_URL 此设置指定静态文件应映射到的URL。你已经完成了。 STATICFIL

  • 在windows上使用netbeans已经很久了,没有问题。在Debian上安装了它,它启动了,但大多数按钮没有响应(新项目/新文件...)。 这是使用终端发射时的结果。 Netbeans版本:8.2 OS:Parrot(debian OS的发行版)JDK版本:9.0.1 提前道谢。

  • 问题内容: 尽管我很确定这是昨天或前一天工作的,例如,在IE10中不再起作用。我已经测试了我的浏览器,但是它不再起作用了。还有谁有相同的问题吗?或者,它永远都行不通吗? 问题答案: IE不支持输入type =“ number”,但您可以使用jQueryUISpinner小部件。它非常易于使用,并且具有许多对开发人员友好的API。

  • 我创建了一个简单的演示项目来测试Android Jetpack导航组件的默认后台功能<我有一个主要活动和两个片段。应用程序运行时会显示主片段。主片段有一个按钮。点击导航到另一个片段<但是每当我按下“系统后退”按钮时,我的整个应用程序就完成了,而不是通常的后堆栈行为,我应该看到主片段<感谢您的帮助。提前谢谢 代码如下: main活动。千吨 活动_main。xml(主要活动的布局) HomeFragm