环境
本章将指导您完成在Windows和Linux上设置Apache Tika的过程。 安装Apache Tika时需要用户管理。
系统需求 (System Requirements)
JDK | Java SE 2 JDK 1.6或更高版本 |
Memory | 1 GB RAM(推荐) |
磁盘空间 | 没有最低要求 |
操作系统版本 | Windows XP或更高版本,Linux |
第1步:验证Java安装
要验证Java安装,请打开控制台并执行以下java命令。
OS | 任务 | 命令 |
---|---|---|
Windows | 打开命令控制台 | \> java -version |
Linux | 打开命令终端 | $ java -version |
如果已在系统上正确安装Java,则应根据您正在使用的平台获得以下输出之一。
OS | output |
---|---|
Windows | Java版“1.7.0_60” Java(TM)SE运行时环境(版本1.7.0_60-b19) Java Hotspot(TM)64位服务器VM(内置24.60-b09,混合模式) |
Lunix | java版“1.7.0_25” 打开JDK运行时环境(rhel-2.3.10.4.el6_4-x86_64) 打开JDK 64位服务器VM(内置23.7-b01,混合模式) |
在继续学习本教程之前,我们假设本教程的读者已在其系统上安装了Java 1.7.0_60。
如果您没有Java SDK,请从https://www.oracle.com/technetwork/java/javase/downloads/index.html下载其当前版本并安装它 。
第2步:设置Java环境
将JAVA_HOME环境变量设置为指向计算机上安装Java的基本目录位置。 例如,
OS | output |
---|---|
Windows | 将环境变量JAVA_HOME设置为C:\ProgramFiles\java\jdk1.7.0_60 |
Linux | export JAVA_HOME =/usr/local/java-current |
将Java编译器位置的完整路径附加到系统路径。
OS | output |
---|---|
Windows | 附加字符串; C:\Program Files\Java\jdk1.7.0_60\bin到系统变量PATH的末尾。 |
Linux | export PATH = $ PATH:$ JAVA_HOME/bin/ |
如上所述,从命令提示符验证命令java-version。
第3步:设置Apache Tika环境
程序员可以通过使用将Apache Tika集成到他们的环境中
- 命令行,
- Tika API,
- Tika的命令行界面(CLI),
- Tika的图形用户界面(GUI),或
- 源代码。
对于这些方法中的任何一种,首先,您必须下载Tika的源代码。
您可以在https://Tika.apache.org/download.html,找到Tika的源代码,在那里您可以找到两个链接 -
apache-tika-1.6-src.zip - 它包含Tika的源代码,和
Tika -app-1.6.jar - 这是一个包含Tika应用程序的jar文件。
下载这两个文件。 Tika官方网站的快照如下所示。
下载文件后,设置jar文件tika-app-1.6.jar的类路径。 添加jar文件的完整路径,如下表所示。
OS | output |
---|---|
Windows | 将字符串“C:\jars\Tika-app-1.6.jar”附加到用户环境变量CLASSPATH |
Linux | 导出CLASSPATH = $ CLASSPATH - /usr/share/jars/Tika-app-1.6.tar - |
Apache使用Eclipse提供Tika应用程序,一个图形用户界面(GUI)应用程序。
Tika-Maven使用Eclipse构建
打开eclipse并创建一个新项目。
如果您没有在Eclipse中使用Maven,请按照给定的步骤进行设置。
打开链接https://wiki.eclipse.org/M2E_updatesite_and_gittags 。 在那里,您将以表格格式找到m2e插件版本
选择最新版本并在p2 url列中保存url的路径。
现在重新访问eclipse,在菜单栏中单击“ Help ,然后从下拉菜单中选择“ Install New Software ”
单击“ Add按钮,键入任意名称,因为它是可选的。 现在将已保存的URL粘贴到“ Location字段中。
将添加一个新插件,其中包含您在上一步中选择的名称,选中前面的复选框,然后单击“ Next 。
继续安装。 完成后,重新启动Eclipse。
现在右键单击该项目,然后在configure选项中选择convert to maven project 。
将出现一个用于创建新pom的新向导。 输入组ID作为org.apache.tika,输入最新版本的Tika,选择packaging为jar,然后单击Finish 。
Maven项目已成功安装,您的项目将转换为Maven。 现在您必须配置pom.xml文件。
配置XML文件
从https://mvnrepository.com/artifact/org.apache.tika获取Tika maven依赖关系
下面显示的是Apache Tika的完整Maven依赖。
<dependency>
<groupId>org.apache.Tika</groupId>
<artifactId>Tika-core</artifactId>
<version>1.6</version>
<groupId>org.apache.Tika</groupId>
<artifactId> Tika-parsers</artifactId>
<version> 1.6</version>
<groupId> org.apache.Tika</groupId>
<artifactId>Tika</artifactId>
<version>1.6</version>
<groupId>org.apache.Tika</groupId>
< artifactId>Tika-serialization</artifactId>
< version>1.6< /version>
< groupId>org.apache.Tika< /groupId>
< artifactId>Tika-app< /artifactId>
< version>1.6< /version>
<groupId>org.apache.Tika</groupId>
<artifactId>Tika-bundle</artifactId>
<version>1.6</version>
</dependency>