当前位置: 首页 > 知识库问答 >
问题:

Apache Tika App配置文件

宰父飞白
2023-03-14

我在Ubuntu 16.04服务器上使用Apache Tika应用程序作为comand line工具来提取文档内容。

[Apache Tika网站][1]上说:

构建文物

Tika构建由许多组件组成,并生成以下主要二进制文件:

tika core/target/tika core-*。jar Tika核心库。包含Tika的核心接口和类,但没有任何解析器实现。只依赖于Java6。

tika-解析器/Target/tika-parsers-*. jar Tika解析器。基于各种外部解析器库实现Tika解析器接口的类集合。

tika应用程序/目标/tika应用程序-*。jar Tika应用程序。将上述组件和所有外部解析器库组合成一个具有GUI和命令行界面的可运行jar。

所以我已经下载了tika-app-*. jar的最后一段(1.18)。那只是一个文件。

java-jar-tika-app-1.18这样的命令行中运行。jar-t

2018年7月28日下午3:29:27组织。阿帕奇。蒂卡。配置。InitializableProblemHandler$3 handleInitializableProblem警告:未加载J2KimagerReader。不会处理JPEG2000文件。看见https://pdfbox.apache.org/2.0/dependencies.html#jai-可选依赖项的图像io。

7月28, 2018 3:29:27日下午org.apache.tika.config.初始化问题处理3美元的处理初始化问题警告:org.xerial的sqlite-jdbc没有加载。请在类路径上提供jar来解析sqlite文件。正确的版本请参见tika-parser/pom.xml。

我不知道这些警告是否会让事情变慢,但在这些重复警告中,很难跟踪其他输出。

我试图通过以下方式将Tika指向我自己的配置文件:

java-jar-tika-app-1.18。jar--config=tika-config。xml-t

我的tika-config.xml文件是:

<?xml version="1.0" encoding="UTF-8"?>
<properties>
  <parsers>
    <parser class="org.apache.tika.parser.DefaultParser">
      <mime-exclude>image/jpeg</mime-exclude>
      <mime-exclude>application/x-sqlite3</mime-exclude>
      <parser-exclude class="org.apache.tika.parser.jdbc.SQLite3Parser"/>
    </parser>
  </parsers>
</properties>

如果我使用这个配置,我会得到没有协议:filename。doc和警告仍然存在。

如何排除jpeg和sqlite解析器?


共有1个答案

莫宁
2023-03-14

我的解决方案是这个tika配置。xml文件:

 <?xml version="1.0" encoding="UTF-8"?>
 <properties>
   <service-loader loadErrorHandler="IGNORE"/>
   <service-loader initializableProblemHandler="ignore"/>
  <parsers>
    <parser class="org.apache.tika.parser.DefaultParser">
    <mime-exclude>image/jpeg</mime-exclude>
    <mime-exclude>application/x-sqlite3</mime-exclude>
    <parser-exclude class="org.apache.tika.parser.jdbc.SQLite3Parser"/>
   </parser>
  </parsers>
  </properties>

然后设置:

export TIKA_CONFIG=/path/to/tika-config.xml

在我的。bashrc文件。

 类似资料:
  • 配置文件使用的是 JSON 格式。 JSON 中使用的数据结构和变量名对应着 Burp UI 中显示选项。生成配置文件的最简单方法是在 Burp UI 中创建所需的配置,然后保存为配置文件。您还可以手动编辑现有的配置文件,其内容是很容易就可以看懂的。 部分配置文件可以在需要时使用。您可以通过每个子工具选项卡的配置面板上的”选项(Options)”按钮来保存该区域的配置,或者通过从完整配置的文件中删

  • 我不确定我是否很好地理解了Spring概要文件是如何处理yaml和属性文件的。我试图将这两种类型的配置分开(这两个文件不共享任何配置),但在从yaml配置中读取配置文件时遇到了问题。 我的问题是,当我试图(通过xml)配置我的数据源时,这样做: Spring总是使用YAML文件中的最后一个配置,忽略概要文件。我试图通过web.xml中的contex-parameter或直接将活动概要文件传递给JV

  • 目录: 在配置项目yml文件中: 问题: null 客户端YML: 有没有人知道我怎样才能在这两种情况下只带一个配置文件?

  • Webpack 在执行的时候,除了在命令行传入参数,还可以通过指定的配置文件来执行。默认情况下,会搜索当前目录的 webpack.config.js 文件,这个文件是一个 node.js 模块,返回一个 json 格式的配置信息对象,或者通过 --config 选项来指定配置文件。 继续我们的案例,在根目录创建 package.json 来添加 webpack 需要的依赖: { "name":

  • 本页阐述了Apache服务器的配置文件。 主配置文件 相关模块 相关指令 mod_mime <IfDefine> Include TypesConfig Apache的配置文件是包含若干指令的纯文本文件。主配置文件通常叫httpd.conf ,其位置是编译时确定的,但可以用命令行参数 -f 来改变。另外,还可以用Include指令和通配符附加许多其他配置文件。任何配置文件都可以使用任何指令。只有在

  • 在 Web 开发中配置是一个非常常用的功能,笔者认为没有绝对的零配置,即便是编码也属于配置, 而且编码写入的配置在Java语言中需要重新编码才可修改,而生产环境中去修改代码是很麻烦的一件事。 Blade中配置的概念更加简化,当然即便你不使用配置文件也可以完全保证你的项目正常运行, 但开发程序落地到每位工程师手上就像是魔法一样,保不齐谁会有大胆的想法,我们满足你。 创建配置文件 我们约定在先,创建的

  • 配置iconTheme { "workbench.iconTheme": "vscode-icons", } 开启minimap { "editor.minimap.enabled": true } jsconfig.json 最新的1.0版本,右下角会有个