tika-app-1.21
经过三年的雄心勃勃的想法,终于在11月从Apache孵化器中脱颖而出,Apache Tika突然出现,最初的目的是脱离网络搜索项目Apache Nutch,并独自成为重要的元数据提取器。
现在,Apache Tika背后的团队发布了内容分析工具箱的更新,该工具箱可检测语言并从文本文档,电子表格,PDF或图像等内容中提取元数据。 Apache Tika 1.1通过增加对PDF,RTF和MP3解析的重要改进,进一步扩展了一站式服务的界限。
Apache Tika的目标是为希望提取各种类型数据的任何人提供单个API,甚至为音频和视频文件提供基本支持。 在此版本中,默认媒体注册表的加载速度大大加快,从而显着提高了性能。 新功能也出现在命令行中,例如列出检测器的功能。
其他增强功能包括改进了针对基于MP4的格式(QuickTime,MP4视频和音频和3GPP)的mime魔术检测,以及针对MP4文件的基本解析器,提取PDF时加快了速度,并为Ogg Vorbis和FLAC文件添加了解析器。
要查看Apache Tika中所有已更改的内容,请查看Changelog ,并且入门指南肯定会解决使用Apache Tika时出现的任何问题。 这看起来似乎很小,但在Apache基金会进行的这个新的顶级项目的远景规划中就有很大的计划要渗透到其他社区。
翻译自: https://jaxenter.com/apache-tika-to-ride-on-into-new-communities-with-1-1-release-104393.html
tika-app-1.21