zdocument text

文档/压缩包解析工具
授权协议 GPL
开发语言 C/C++
所属分类 应用工具、 压缩、解压缩
软件类型 开源软件
地区 不详
投 递 者 戴博
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

zdocument_text 是一个文档解析库。主要用于解开各类压缩包,解析各类文档为文本和资源(主要是图片),解出的文本不关注样式。适用于机器学习,分词等,不适合展示。

背景

  • 在邮件反垃圾系统中, 需要解析附件(文档,压缩包,图片), 获取文本, 获取文件类型

支持的压缩包类型

  • z, 7z, gz, tar, tgz, zip/arj/zipx, rar/lzh,

支持的文档类型

  • doc/dot/wps/wpt, ppt/pps/dpt/dps, xls/xlt/ett/et
  • docx/docm/dotx, pptx/pptm, xlsx/xlsm
  • odt, odp, ods
  • xmldoc, xmlxls
  • rtf
  • pdf
  • FUNCTION ZDOCUMENT_BILL_EXCHANG_POST . *"---------------------------------------------------------------------- *"*"本地接口: *"  IMPORTING *"     VALUE(I_HEADER) LIKE  BKPF STRUCTURE  BKPF *"  EXPORTING

  • application/xml 、 text/xml、text/html、text/plain的区别 1、text/html是html格式的正文  2、text/plain是无格式正文 3、text/xml忽略xml头所指定编码格式而默认采用us-ascii编码 4、application/xml会根据xml头指定的编码格式来编码: text/plain还可以有效避免XSS漏洞 http://ww

  • http://matplotlib.org/api/text_api.html#matplotlib.text.Text 类 xticks/yticks等都继承与text类 class matplotlib.text.Text(x=0, y=0, text='', color=None, verticalalignment='baseline', horizontalalignment='left

  • text-align用于设置文本的对齐方式。 可选值: – left:左对齐 – right:右对齐 – justify:两边对齐 – center:居中对齐 text-indent用来设置首行缩进。 该样式需要指定一个长度,并且只对第一 行生效。

  • Reading Text Files June 09, 2000 | Fredrik Lundh This is somewhat outdated, given the additions of xreadlines in 2.1 and text file iterators in 2.2. See the end of the page for examples. This very bri

  • 我收集并学习,然后记录,向我看过的文章的作者表示感谢  _T("")是一个宏,他的作用是让你的程序支持Unicode编码 因为Windows使用两种字符集ANSI和UNICODE, 前者就是通常使用的单字节方式, 但这种方式处理象中文这样的双字节字符不方便, 容易出现半个汉字的情况。 而后者是双字节方式,方便处理双字节字符。 Windows NT的所有与字符有关的函数都提供两种方式的版本,而Win

  • <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title></title> <script type="text/javascript" src="../js/jquery-1.9.1.min.js"></script> </head> <style> p { color:blue; margin:8px; }

  • VC中_T、_TEXT和TEXT宏的作用(来自互联网) 收藏 1.在字符串前加一个L作用。 如:L"我的字符串" 表示将ANSI字符串转换成unicode的字符串,就是每个字符占用两个字节。 strlen("asd")   =   3; 而strlen(L"asd")   =   6;   2._T宏可以把一个引号引起来的字符串,根据你的环境设置,使得编译器会根据编译目标环境选择合适的(Unico

  • text/plain和text/html都是Content-Type; text/plain : 页面以文本形式输出 text/html:  页面以html格式输出 转载于:https://www.cnblogs.com/MissBean/p/contentType.html

  • text-decoration:over-line  定义上划线 text-decoration:line-through  定义删除线 text-decoration:underline  定义下划线 text-decoration:blink   定义闪烁文本 text-decoration:none  无装饰   text-decoration-color:16进制/预定义的颜色值/rgb 

  • text-indent——缩进元素中文本的首行 eg. p {text-indent: 5em;}, text-indent 还可以设置为负值:p {text-indent: -5em;}, 不过在为 text-indent 设置负值时要当心,如果对一个段落设置了负值,那么首行的某些文本可能会超出浏览器窗口的左边界。为了避免出现这种显示问题,建议针对负缩进再设置一个外边距或一些内边距:p {tex

  • 1、测试代码: 1 <!DOCTYPE html > 2 3 <html> 4 5 <style type="text/css"> 6 <!-- 7 8 --> 9 </style> 10 11 <script type="text/javascript" > 12 <!-- 13 14 15 window.onload = function() 16

  • 我在日历中有一些tootlip的代码。我希望能够在工具提示中显示html,这可能吗?每次我尝试和改变它接受HTML崩溃只允许文字现在,我不知道如何去改变它允许HTML函数this.text = text;到html .pink > a { background-color: pink !important; background-image:none !important; } .green >

 相关资料
  • 在windows下我们接触最多的压缩文件就是.rar格式的了。但在linux下这样的格式是不能识别的,它有自己所特有的压缩工具。但有一种文件在windows和linux下都能使用那就是.zip格式的文件了。压缩的好处不用笔者介绍相信你也晓得吧,它不仅能节省磁盘空间而且在传输的时候还能节省网络带宽呢。 在linux下最常见的压缩文件通常都是以.tar.gz 为结尾的,除此之外还有.tar, .gz,

  • 问题内容: 我可以解压缩zip,gzip和rar文件,但是我还需要解压缩bzip2文件以及对其进行存档(.tar)。我还没有遇到好的图书馆可以使用。 我理想地将Java与Maven一起使用,我想将其作为依赖项包含在POM中。 您推荐什么图书馆? 问题答案: 我所看到的最好的选择是具有此Maven依赖项的Apache Commons Compress 。 从示例:

  • 又一款与PHP解压缩相匹配的打包(压缩)工具,其特点是可以在远程服务器上方便、快速的压缩文件,并且提供下载链接,方便下载,是网站备份的好工具。其他用途有待开发!(声明:此程序为开源程序,本人只是对其二次修改,不存在版权问题,可随意下载、转载) 使用方法: 下载到本地之后,上传PHPZip.php文件到你的服务器上,对其进行访问。 默认密码:xibo123 修改密码方法:在地址栏访问你服务器上PHP

  • 我正在使用Julia的ZipFile包来提取和处理csv文件。没问题,但是当我遇到zip文件中的zip文件时,我也想处理它,但是遇到了一个错误。 Julia ZipFile文档如下:https://zipfilejl.readthedocs.io/en/latest/ 对如何做到这一点有什么想法吗?

  • 这里我有几个文件夹中的Bookfolder(英语,印地语,日语)。将英语,印地语,日语转换为english.zip,hindi.zip和japanese.zip。一切都很好,我把zip文件和文件夹保存在Bookfolder中,这是我用java做的事情。但是当我手动解压缩zip文件ex:english.zip时,右键单击这里的解压缩,然后显示错误为意外的归档结束。这是我的代码。 当我提取新的zip文

  • 问题内容: Groovy中是否有内置支持来处理Zip文件(采用groovy方式)? 还是我必须使用Java的java.util.zip.ZipFile来处理Groovy中的Zip文件? 问题答案: AFAIK,没有本机的方法。但是请查看本文,了解如何向File 添加方法,这与您要查找的内容非常接近。您只需要制定一个方法。

  • 问题内容: 我想使用Web浏览器在客户端显示OpenOffice文件,.odt和.odp。 这些文件是压缩文件。使用Ajax,我可以从服务器获取这些文件,但是它们是压缩文件。我必须使用JavaScript解压缩它们,我尝试使用inflate.js,http: //www.onicos.com/staff/iz/amuse/javascript/expert/inflate.txt ,但没有成功。