当前位置: 首页 > 软件库 > 程序开发 > PDF工具包 >

pdf2htmlEX

高保真PDF至HTML转换
授权协议 GPL
开发语言 C/C++ Python JavaScript HTML/CSS
所属分类 程序开发、 PDF工具包
软件类型 开源软件
地区 国产
投 递 者 翟聪
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

pdf2htmlEX可以将PDF转换成HTML,不同于传统类似软件,它可以:

  • 在HTML文件中精确显示原生文本
    • 保持PDF中的字体,颜色,位置
    • 可以选择,复制,搜索
  • 生成的文件大小与解压缩后的PDF文件相当,如果放到支持HTTP压缩的服务器上,网络消耗和PDF相当
  • [可选]单HTML文件输出

转换效果实例:

pdf2htmlEX适用于将PDF在线发布,使用案例

  • 在个人主页发布个人简历,在其中嵌入流量统计代码
  • 内容发布商(报纸,杂志,电子书)提供在线阅读服务,可以加入权限管理,广告,个性化内容
  • 网盘服务,PDF在线预览 (MediaFire目前使用pdf2htmlEX)

说明:作者不常上开源中国。如有问题,欢迎通过邮件列表(中文)讨论,地址是:

https://groups.google.com/forum/#!forum/pdf2htmlex-cn


  • 安装依赖 sudo yum install cmake gcc gnu-getopt java-1.8.0-openjdk libpng-devel fontforge-devel cairo-devel poppler-devel libspiro-devel freetype-devel poppler-data libjpeg-turbo-devel git make gcc-c++ 下

  • pdf2html 参数说明 用法: pdf2htmlEX [options] <input.pdf> [<output.html>] -f,--first-page <int> 需要转换的起始页 (默认: 1) -l,--last-page <int> 需要转换的最后一页 (默认: 2147483647) --zoom <fp>

  • 我们使用pdf2htmlEX这个库将PDF转为HTML,并通过命令行、python控制它 pdf2htmlEX相关资料 pdf2htmlEX Github 主页:https://github.com/coolwanglu/pdf2htmlEX 相关论文: Wang, Lu, and Wanmin Liu. “Online publishing via pdf2htmlEX.” TUGboat 34

  • pdf2htmlEX是一款非常优秀的pdf转html工具,转换出的html页面效果几乎与pdf阅读效果无异,windows下的版本很方便安装,但作为服务端的应用,我们需要安装在CentOS下,第一次安装遇到了一个比较大的问题,卡了几天,终于解决,在此记录安装步骤: 1、从https://github.com/coolwanglu/pdf2htmlEX/上clone最新版,或者找最新的release

  • 在手机端展示PDF是移动开发者的一大痛点 目前在PC端展示PDF有较多的解决方案,比如: PC端 embed标签 pdf.js 这里不再赘述使用方法,网上一大堆 那么在手机端展示pdf就成了一个难题,尤其是在微信上(兼容性无力吐槽),经过一番研究,在GitHub上发现了pdf2htmlEX这个神器! 移动端 pdf2htmlEX ok,相信你看了Demo基本已经被它的显示效果惊呆了,下面我们来看一

  • 背景: docsify在线文档支持pdf查看 在使用github展现在线的pdf的时候,因为一些原因会比较慢,所以记录一下另一个方法,就是把pdf转称html的方法。 这里使用pdf2htmlex,因为brew安装比较麻烦,推荐直接使用docker安装。 拉取docker文件 docker pull bwits/pdf2htmlex 把Docker镜像作为命令使用 alias pdf2htmlEX

 相关资料
  • 问题内容: 将PDF文档转换为HTML在浏览器中查看的最佳解决方案是什么?该站点有多个PDF文档,访问者可以单击HTML格式的视图,并且应在屏幕上以HTML文件的形式查看。 运行PHP,Linux,Apache的标准网站。 问题答案: pdftohtml可以正常工作:快速,稳定,但是html结果充其量是丑陋的。我已经在有很多工作简历的网站上使用了很长时间。 但是,这是提取文本内容的好方法。 或Go

  • 我想在pdf中更改一些超文本标记语言。我所有的html都是超文本标记语言字符串,但我不知道如何在中正确传递。 如果有人知道怎么做。。一定很好。多谢多姆

  • 问题内容: 我是一名PHP开发人员,在我的一个项目中,我需要将一些HTML文档(大约30至50页)转换为PDF文档。 我的搜索找到了以下可能的解决方案。其中包括一些PHP库和一些命令行应用程序。每种都有自己的优点和缺点。 PHP库: fpdf(需要更多的转换努力) tcpdf(需要更多的转换努力) html2fpdf http://html2fpdf.sourceforge.net html2pd

  • 问题内容: 以下代码不适用于Apache poi 3.16。有人可以提供正确的解决方案吗,在我的项目中,有些人只能使用 例外: 问题答案: 这样做的主要问题是这些和不是项目的一部分。它们是由开发的,第一个版本的命名错误和。这些老班没有更新从2014年开始,需要版本 的 使用。 请使用更多 最新版本的fr.opensagres.poi.xwpf.converter.pdf,该版本可以使用最新的稳定版

  • 我成功地使用Apache Batik将SVG文件转换为PDF。 以下代码用于生成 PDF: 现在我想影响生成的PDF的页面大小,所以我得到了A4的页面大小。我怎么能这么做呢? 我已经尝试了一些关键提示,但没有效果。

  • 问题内容: 我有一个HTML(不是XHTML)文档,可以在Firefox 3和IE 7中很好地呈现。它使用相当基本的CSS对其进行样式设置,并在HTML中很好地呈现。 我现在正在寻找一种将其转换为PDF的方法。我努力了: [DOMPDF]:表格有很大的问题。我考虑了我的大型嵌套表并对其进行了帮助(在此之前,它只消耗了128M的内存然后就死了-这就是我对php.ini中的内存的限制),但是它使表完全