当前位置: 首页 > 知识库问答 >
问题:

将tika与python一起使用,runtimeerror:无法启动tika服务器

袁翰池
2023-03-14

我正在尝试使用tika包来解析文件。Tika已成功安装,tika-server-1.18.jar使用cmd中的代码运行java-jar tika-server-1.18.jar

我在Jupyter中的代码是:

Import tika 
from tika Import parser
parsed = parser.from_file('')

然而,我收到以下错误:

2018-07-25 10:20:13,325[MainThread][WARNI]无法看到启动日志消息;正在重试...2018-07-25 10:20:18,329[MainThread][WARNI]无法看到启动日志消息;正在重试...2018-07-25 10:20:23,332[MainThread][WARNI]无法看到启动日志消息;正在重试...2018-07-25 10:20:28,340[主线程][错误]尝试3次后未收到Tika启动日志消息。2018-07-25 10:20:28,340[MainThread][错误]无法从StartServer接收启动确认。

RuntimeError:无法启动Tika服务器。

共有1个答案

孙渝
2023-03-14

根据Apache Tika的站点,所有新版本的tika-server.jar都需要Java8。

2018年4月24日:Apache Tika发布Apache Tika 1.18已经发布!此版本包括bug修复(例如从PPT中的分组形状中提取)、安全修复和对依赖项的升级。请注意:下一个版本将需要Java8。请参阅changes.txt文件以获得版本中更改的完整列表,并查看下载页面以获得关于如何获得Apache Tika1.18的更多信息。

当前针对tika Python库的过时文档声称需要Java7,但现在必须安装Java8。这是因为当前版本的tika-server.jar会在运行时自动下载,如果在您的临时文件中找不到的话。

 类似资料:
  • 没有Docker,脚本可以使用Tika解析pdf文件。 但是,当我尝试使用Docker时…我得到以下错误,因为tika服务器没有运行:通过阅读,我尝试了以下错误-但是错误仍然存在。 能帮点忙吗? 我在最后附加了Dockerfile并列出了正在运行的docker容器- > Docker拉Apache/Tika Docker run-d-p 9998:9998 Apache/Tika cat Dock

  • tika-python A Python port of the Apache Tikalibrary that makes Tika available using theTika REST Server. This makes Apache Tika available as a Python library,installable via Setuptools, Pip and Easy I

  • 学习如何在Java编程中使用Tika。 以下是示例 - 如何使用java从PDF中提取内容。 如何使用java从ODF中提取内容。 如何使用java从Excel工作表中提取内容。 如何使用java从文本文档中提取内容。 如何使用java从XML文档中提取内容。 如何使用java从HTML文档中提取内容。 如何使用java从java .class文件中提取内容。

  • Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格式的支持。 在当前的0.2-SNAPSHOT 版本中, Tika 提供了对如下文件格式的支持: PDF - 通过 Pdfbox MS-* - 通过 POI HT

  • 我正在尝试解析一些包含工程图纸的PDF文件以获取文件中的文本数据。我尝试将TIKA用作python的jar,并将其与jnius包一起使用(在此处使用本教程:http://www.hackzine.org/using-apache-tika-from-python-with-jnius.html),但代码引发错误。 然而,使用TIKA包,我能够传递文件并解析它们,但是Python只能提取元数据,当要

  • 如果MediaType是XML类型,我如何识别它?或者如果是类型压缩?我需要一个包含所有子元素的“父”类型,可能是一个方法:“boolean isXML()”,它包含application/xml和text/xml和application/x-xml,或者“boolean isCompress()”,它包含所有zip+gzip类型等