DocumentExtractor

doc及docx纯文本提取
授权协议 未知
开发语言 C/C++ C/C++
所属分类 程序开发、 其他开发相关
软件类型 开源软件
地区 国产
投 递 者 姬雪松
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

在日常的很多项目中我们总会遇到各种各样的格式转换问题,这让我头疼不已。尤其是在window占领pc机大部分系统的今天,doc及docx格式虽然已经开放,但是对于一个一般开发者来说依然无法处理。所以我们研究了doc及docx文件格式写出了DocumentExtractor。

本项目简单易用,对外接口仅有三个分别为open ,getText ,close ,简单明了,易于使用。同时这仅仅是一个草稿版本,在构架及代码设计方面存在很多问题。我会尽快开发正式版本,

 相关资料
  • 我试图从docx中提取文本:tika-app做得很好,但当我试图在代码中做同样的事情时,结果是什么也没有,tika解析器说我的docx文件的内容类型是“application/zip”。 我该怎么办?我应该使用递归方法(像这样)还是有其他方法? java.lang.noClassDefFounderRor:org/apache/poi/openXML4j/exceptions/invalidFor

  • 6.6.3 FlatFileItemWriter 将数据写入到纯文本文件也必须解决和读取文件时一样的问题。 在事务中,一个 step 必须通过分隔符或采用固定长度的格式将数据写出去. LineAggregator 与 LineTokenizer 接口的处理方式类似, 写入文件时也需要有某种方式将一条记录的多个字段组织拼接成单个 String,然后再将string写入文件. Spring Batch

  • 6.6.2 FlatFileItemReader 译注: 本文中 将 Flat File 翻译为“平面文件”, 这是一种没有特殊格式的非二进制的文件,里面的内容没有相对关系结构的记录。 平面文件(flat file)是最多包含二维(表格)数据的任意类型的文件。在 Spring Batch 框架中 FlatFileItemReader 类负责读取平面文件, 该类提供了用于读取和解析平面文件的基本功能

  • 问题内容: 在某些情况下,我们可能需要从Word文档中获取文本以供将来在用户上传的文档中搜索字符串,例如在cv / resumes中进行搜索,并出现一个常见的问题,即如何获取文本,打开并阅读用户上载Word文档时,有一些有用的链接,但不能解决整个问题。我们需要在上载时获取文本并将文本保存在数据库中,以便在数据库中轻松搜索。 问题答案: class DocxConversion{ private $

  • 您的应用程序可能需要通用的纯文本配置文件,而不是使用Environment抽象(或YAML中的其他替代表示形式或属性格式)。配置服务器通过/{name}/{profile}/{label}/{path}附加的端点提供这些服务,其中“name”,“profile”和“label”的含义与常规环境端点相同,但“path”是文件名(例如log.xml )。此端点的源文件位于与环境端点相同的方式:与属性或

  • 问题内容: 我处理了许多在Python,R以及有时在Matlab之间交换的文本/数据。 我要去的是纯文本文件,但偶尔也使用SQLite来存储数据和从每个程序进行访问(虽然还不是Matlab)。我不像在R中那样在SQL中使用GROUPBY,AVG等,因此我不一定需要数据库操作。 对于此类需要在程序之间交换数据以使用每种语言的可用库的应用程序,是否存在使用哪种数据交换格式/方法(甚至XML,NetCD

  • 问题内容: 我的服务器中有一个包含此信息的文本文件: 如何使用PHP从文本文件中逐行读取所有信息? 问题答案: 这将使您逐行阅读..阅读php.net/fgets上有关Mac的行尾问题的注释。

  • 我有一个带有此endpoint的REST API: 响应的示例可以是:。 谢谢