我使用Apache Tika来提取所有类型文件的文本。现在我还想用它来检测文件的正确MIME类型。
例如,这适用于...
...但不是为了:
text/plain
而不是text/css
)text/plain
而不是text/JavaScript
)(这些mime类型的结果来自我的应用程序,也来自tika-app)。
我的应用程序需要像text/css
这样的精确MIME类型,而不是一般的text/plain
。提卡可能这样吗?
你需要做两件事。首先,您需要向Tika提供文件名,这样它就可以使用它来帮助将纯文本类型专门化为适当的子类型(CSS、JS等)。其次,您需要确保您使用的是一个足够新的版本的Tika。
我刚刚尝试了最新版本的Tika,通过传入文件名,它可以很好地检测JS和CSS文件:
$ java -jar tika-app-1.3-SNAPSHOT.jar --detect testCSS.css
text/css
$ java -jar tika-app-1.3-SNAPSHOT.jar --detect testJS.js
application/javascript
此外,Tika的最新版本(从r1400795)有一个单元测试,它可以自动验证JS和CSS检测是否有效,所以您可以加倍肯定它的工作正常!
MIME(多用途Internet邮件扩展)类型告诉浏览器如何处理某些类型的文件。 当文件发送到您网站访问者的浏览器时,它也会发送该文件的MIME类型。 MIME类型告诉浏览器文件类型以及如何将文件提供给用户。 例如,如果将.js文件发送到浏览器,则还会发送application/JavaScript MIME类型以告知浏览器.js文件是JavaScript文件,浏览器会相应地处理该文件。 大多数M
我在检测纯文本文件的正确MIME类型方面失败了: CSS 差异 INI(配置) JavaScript RST SQL 它们都被标识为“文本/普通”,这是正确的,但对我来说太不具体了。我需要真正的类型,即使它花费一些时间来分析文件内容。 所以我的问题是:有哪些解决方案可以检测这种纯文本文件的MIME类型?有图书馆吗?代码段? 请注意,我既没有文件名也没有文件扩展名,但我有文件内容。 如果我使用rub
本文向大家介绍python 检查文件mime类型的方法,包括了python 检查文件mime类型的方法的使用技巧和注意事项,需要的朋友参考一下 magic 模块可以检查文件的mime类型,而不是从后缀名来判断,例如判断文件是不是视频或图片类型如下: 以上这篇python 检查文件mime类型的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持呐喊教程。
问题内容: 有什么方法可以在Chrome中禁用。 实际上,我正在跨域发出JSONP请求。它可以在Firefox上正常工作,但是在使用chrome时,在控制台上会出现一些错误。 拒绝从“ https://example.com ” 执行脚本,因为其MIME类型(“ text / plain”)不可执行,并且启用了严格的MIME类型检查。 它在Mozilla中可完美运行。问题仅在Chrome中出现 这
我正在使用Apache Tika从它的base64 rapresentation中检测文件Mime类型。不幸的是,我没有关于该文件的其他信息(例如扩展名)。 我能做些什么让Tika变得更具体吗? 谢了。
我试图检测传递给web服务到SOAP信封中的文件内容类型。可以通过两种方式指示该文件: 从其url, 从其包含(base64压缩数据)。 那么,如何在文件扩展名未知的情况下检测MIME类型呢?