当前位置: 首页 > 知识库问答 >
问题:

OneNote对Apache Tika解析器的支持

常温文
2023-03-14

它们确实支持基于扩展和基于名称的内省来确定mime类型,但这是不可靠的,因为我总是可以将一个文件命名为*.one,而且它会将mime类型抛出为'application/oneNote',这是不正确的。

任何可用库上的指针,可以很容易地检测给定文件是onenote类型还是我在Tika中遗漏了什么?

共有1个答案

秦景同
2023-03-14

对于mime-magic驱动的OneNote文件检测,您需要Apache Tika1.15或更高版本。

对于OneNote解析(元数据、文本等),您要么需要等待Apache 1.24发布(定于2020年3月),要么从源代码中构建自己,包括Github pull request#303/tika-2224中的补丁。

如果你是Tika+OneNote的用户,请非常感谢Nicholas DiPiazza(他做了大部分工作)和Tim Allison(他帮助审查/指导/等等)

 类似资料:
  • 当我试图通过liquibase命令行启动changelog.groovy时,它告诉我 我正在执行下一个操作: 我的LiquiBase.Properties是: driver=org.postgresql.driver classpath=c:\users\andrii\org.postgresql.driver.jar;c:\users\andrii\liquibase-3.5.1-bin\lib

  • 我正在为文件扩展名创建一个解析器,完成后我将把它添加到Apache Tika项目中。 下面是我正在创建的APL2.0许可开放源代码项目:https://github.com/nddipiazza/onenote-parser-java 我在这里使用了规范文档:https://docs.microsoft.com/en-us/openspecs/office_file_formats/ms-one/

  • 本文向大家介绍详解配置 Apache 服务器支持 PHP 文件的解析,包括了详解配置 Apache 服务器支持 PHP 文件的解析的使用技巧和注意事项,需要的朋友参考一下 详解配置 Apache 服务器支持 PHP 文件的解析 【说明】 1. 本例中 Apache 版本为 httpd-2.4.20-x64-vc14 ,安装路径为 E:\Apache24 2. PHP 版本为 php-5.5.34-

  • 我有一个利用CharsAsTokens人造lexer的无扫描解析器语法,它为ANTLR4到4.6版本生成了一个可用的Java解析器类。但是,当更新到ANTLR 4.7.2到4.9.3-Snapshot时,该工具会生成代码,从相同的语法文件产生数十个编译错误,如下所述。 我这里的问题很简单:是否不再支持无扫描解析器语法,或者必须在4.7和更高版本中以不同的方式指定基于字符的终端? 更新: 不幸的是,

  • 我正在评估我们是否可以为我们的项目从普通JDBC迁移到jOOQ。其中大部分看起来很有希望,但我现在想知道一个特定的流:嵌套行。让我解释一下。 假设您有以下两张表: (我们假设一个学生只能是一个班级的一员。) 让我们为这些表创建一个响应类型。我将在下面的查询中使用这些。 现在让我们使用嵌套行获取所有带有学生的类: 一种有用的变体是仅在数组中使用嵌套行: 我想知道jOOQ是否有一种优雅的方法来解析包含

  • Milo Yip 2016/11/15 本文是《从零开始的 JSON 库教程》的第六个单元解答篇。解答代码位于 json-tutorial/tutorial06_answer。 1. 重构 lept_parse_string() 这个「提取方法」重构练习很简单,只需要把原来调用 lept_set_string 的地方,改为写入参数变量。因此,原来的 lept_parse_string() 和 答案