Tika有一个解析器库,可以分析各种文档格式的内容,并提取它们。然后检测所述文档的类型,它从解析器库选择的适当的分析器,并传递该文档。不同类别的Tika方法来解析不同的文件格式。过程中可能会报错
报错:
Use tika with python, runtimeerror: unable to start tika server
解决:
这个是缺java包,可以去java官网(https://www.java.com/zh-CN/download/)中下载,记得吧环境变量配上,以及重新启动pycharm或jupyter notebook
python 下面如何使用
from tika import parser
parsed = parser.from_file("test1.pdf")
print(parsed['content'])
‘\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n带有插入和/或拉出操作段的印制线路插件操纵件\n\n\nwww.soopat.com\n\n注:本页蓝色字体部分可点击查询相关专利\n\nSooPAT\n\n带有插入和/或拉出操作段的印制\n线路插件操纵件\n申请号:00818214.0\n申请日:2000-08-03\n\n申请(专利权)人 利塔尔RES电子系统两合公司\n\n地址 德国埃肯塔尔\n\n发明(设计)人 罗尔夫·贝伦斯 沃纳·柯伯 西格弗里德·库勒 库尔特-迈\n克尔·谢弗\n\n主分类号 H05K7/14\n\n分类号 H05K7/14\n\n公开(公告)号 1421116\n\n公开(公告)日 2003-05-28\n\n专利代理机构 北京市柳沈律师事务所\n\n代理人 侯宇 陶凤波\n\nwww.soopat.com\nhttp://www.soopat.com/Home/Result?SearchWord=00818214\nhttp://www.soopat.com/Home/Result?SearchWord=SQR%3a(%e5%88%a9%e5%a1%94%e5%b0%94RES%e7%94%b5%e5%ad%90%e7%b3%bb%e7%bb%9f%e4%b8%a4%e5%90%88%e5%85%ac%e5%8f%b8)\nhttp://www.soopat.com/Home/Result?SearchWord=DZ%3a(%e5%be%b7%e5%9b%bd%e5%9f%83%e8%82%af%e5%a1%94%e5%b0%94)\nhttp://www.soopat.com/Home/Result?SearchWord=FMR%3a(%e7%bd%97%e5%b0%94%e5%a4%ab%c2%b7%e8%b4%9d%e4%bc%a6%e6%96%af)\nhttp://www.soopat.com/Home/Result?SearchWord=FMR%3a(%e6%b2%83%e7%ba%b3%c2%b7%e6%9f%af%e4%bc%af)\nhttp://www.soopat.com/Home/Result?SearchWord=FMR%3a(%e8%a5%bf%e6%a0%bc%e5%bc%97%e9%87%8c%e5%be%b7%c2%b7%e5%ba%93%e5%8b%92)\nhttp://www.soopat.com/Home/Result?SearchWord=FMR%3a(%e5%ba%93%e5%b0%94%e7%89%b9-%e8%bf%88%e5%85%8b%e5%b0%94%c2%b7%e8%b0%a2%e5%bc%97)\nhttp://www.soopat.com/Home/Result?SearchWord=FMR%3a(%e5%ba%93%e5%b0%94%e7%89%b9-%e8%bf%88%e5%85%8b%e5%b0%94%c2%b7%e8%b0%a2%e5%bc%97)\nhttp://www.soopat.com/Home/Result?SearchWord=ZFLH%3a(H05K7%2f14)\nhttp://www.soopat.com/Home/Result?SearchWord=FLH%3a(H05K7%2f14)\nhttp://www.soopat.com/Home/Result?SearchWord=GKH%3a(1421116)\nhttp://www.soopat.com/Home/Result?SearchWord=GKRQ%3a(2003-05-28)\nhttp://www.soopat.com/Home/Result?SearchWord=ZLDLJG%3a(%e5%8c%97%e4%ba%ac%e5%b8%82%e6%9f%b3%e6%b2%88%e5%be%8b%e5%b8%88%e4%ba%8b%e5%8a%a1%e6%89%80)\nhttp://www.soopat.com/Home/Result?SearchWord=DLR%3a(%e4%be%af%e5%ae%87)\nhttp://www.soopat.com/Home/Result?SearchWord=DLR%3a(%e9%99%b6%e5%87%a4%e6%b3%a2)\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n’