当前位置: 首页 > 软件库 > 程序开发 > PDF工具包 >

pdf_searcher

PDF 转换文本工具
授权协议 GPL
开发语言 Python
所属分类 程序开发、 PDF工具包
软件类型 开源软件
地区 国产
投 递 者 谢鸿飞
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

监视并转换磁盘目录中的 pdf 文档为文本文件,并进行全文检索python,watchdog,whoosh,,jieba,mongodb,pymongo,pdf2text

  • Anytxt Searcher是一款强大的文本搜索工具,可以帮助用户快速找到想要的文件。它的特点在于拥有快速、准确、易用的搜索引擎,可以搜索各种格式的文件,如文本文件、Word文档、PDF等。 此外,Anytxt Searcher还具有很多高级功能,如支持正则表达式和通配符搜索、可以搜索网络硬盘等。另外,它还有一个友好的用户界面,使用起来非常方便。 Anytxt Searcher的性能也非常优秀,

  • style 于 2011-02-25 13:39:38发表: 附件呢。。。怎么下载 tosail 于 2010-06-02 20:37:42发表: 下载看看 liwaye 于 2010-06-02 13:32:02发表: 不错,谢谢了 milongfei 于 2010-05-31 22:21:27发表: 好资料。 weikaijun 于 2010-05-31 19:57:13发表: 都收下了 Th

  • 公司承接了一个项目,要做集中打印服务和后期处理流程,现在正在结构分析和技术验证。 项目需求是:客户端通过OA系统上传打印请求到服务器,服务器提交PDF文档打印,打印完成后做后期处理。。。项目的后期处理部分要做什么不是本文涉及的内容,这里仅涉及打印。 首先是系统选型,选择范围是android、linux和windows:  android,似乎默认不支持打印机,搞起来很麻烦,放弃;  linux,有

 相关资料
  • 英文字母的大小写转换,是CSS提供的非常实用的功能之一,文本的大小写转换在空格处理之后进行。文本转换对中文无效,因为中文不存在大小写。 在CSS中,使用 text-transform属性来对文本进行大小写转换,取值为 none | capitalize | uppercase | lowercase | full-width,默认为 none。 none 表示无转换,保持原样;capitalize

  • 一、简介 京东小程序转换器,是京东官方团队提供的一款真正实现小程序一键转换的工具,帮助开发者提升开发效率,无需再为维护多套代码仓库而烦恼,让京东小程序的开发流程变得轻松而愉悦。 工具特性如下: 一键转换,可视化操作,简单易用 配备详细的文档操作说明,简单易学 转换过程搭配丰富的日志输出,直观明了 满足绝大多数转换工作需要,性能优越 二、使用说明 1、打开待转化小程序: 点击左侧栏“打开”,打开一个

  • 问题内容: 我有大量文本字符串,这些字符串显然是PDF文件的原始数据,我需要将其重新制作为PDF。 目前,我正在将字符串读取到StringBuffer中,但是如果需要,可以更改它。从那里,我尝试将其写到文件中并更改扩展名(我真的希望这样做能起作用,但是我有点不知道),我尝试将其带入String,然后从中取出byte []。并将其写入文件,或使用DataOutputStream将字节放入文件中。这些

  • 等高线生成        在“工具”菜单栏中点击等高线生成,弹出对话框如下。        加载要生成等高线的地形高程数据,设置导出的文件位置(最后生成为.shp文件),根据已有的地形高程数据进行设置合适的等高线间距(间距大于地形高程则无法生成),点击生成等高线。        点击查看等高线点击查看等高线如图,可以导入可加载shp格式的软件中查看。如果需要预览一片区域的等高线效果,请使用“等高线

  • 问题内容: 我只想知道在Java或C#中是否有任何库或外部库中的构建允许我获取音频文件并对其进行解析并从中提取文本。 我需要创建一个应用程序,但是我不知道从哪里开始。 问题答案: 以下是您的一些选择: 微软演讲 光明 龙自然讲 狮身人面像4

  • 在下面的示例中,我们试图将XML数据转换为HTML

  • 谈到XSLT,我是一个完全的新手,所以我很难找到解决问题的方法。 我有以下来自PeopleSoft的XML: PeopleSoft"有益地"将所有文本数据放入CDATA部分,我想删除CDATA,并将字符串放在正常的文本节点中: 有人能在我需要创建我想要的输出的XSLT上给我一个正确的方向吗?非常感谢提前

  • 问题内容: 我可以从word2vec网站下载GoogleNews-vectors- negative300.bin.gz。.bin文件(大约3.4GB)是对我无用的二进制格式。Tomas Mikolov向我们保证:“将二进制格式转换为文本格式应该很简单(尽管这将占用更多的磁盘空间)。检查距离工具中的代码,读取二进制文件相当简单。” 不幸的是,我对C的了解不足,无法理解http://word2vec