我有一些需要用XML迷惑的HTML文件。我们正在使用这些HTML为应用程序提供内容,但是现在我们必须以XML形式提供这些内容。
HTML文件包含,表格,div,图像,p,b或强标签等。
我用谷歌搜索并找到了一些应用程序,但是我还无法实现。
您能否建议一种将这些文件内容转换为XML的方法?
我成功使用了tidy
命令行实用程序。在Linux上,我使用迅速安装了它apt-get install tidy
。然后命令:
tidy -q -asxml --numeric-entities yes source.html >file.xml
给了一个xml文件,我可以使用xslt处理器进行处理。但是我需要正确设置xhtml1 dtds。
这是他们的主页:html-tidy.org和旧版页面:HTMLTidy
问题内容: 我们有一个水晶报表,我们需要将其作为电子邮件发送出去,但是从水晶报表生成的HTML几乎很丑陋,并且导致某些电子邮件客户端出现问题。我想将其导出为富文本格式,并尽可能将其转换为HTML。 有什么建议么? 问题答案: 我会在CodeProject RTFConverter上签出此工具。这个家伙很好地细分了程序的工作方式以及转换的细节。
问题内容: 将PDF文档转换为HTML在浏览器中查看的最佳解决方案是什么?该站点有多个PDF文档,访问者可以单击HTML格式的视图,并且应在屏幕上以HTML文件的形式查看。 运行PHP,Linux,Apache的标准网站。 问题答案: pdftohtml可以正常工作:快速,稳定,但是html结果充其量是丑陋的。我已经在有很多工作简历的网站上使用了很长时间。 但是,这是提取文本内容的好方法。 或Go
问题内容: 我想将从下面的脚本中获取的HTML表转换为CSV文件,但是出现如下类型错误: TypeError:序列项0:预期的字符串,找到标记 将其转换为CSV文件的最简单方法是什么?我尝试为: 但它写了“无” HTML是这样的: 问题答案: 这是csv lib的工作,将每一个td放入每一行并提取文本,它将处理每一行中缺少值的地方: 与您在页面上看到的表格完全匹配的表格: 如果您想使用字幕: 但是
我想在pdf中更改一些超文本标记语言。我所有的html都是超文本标记语言字符串,但我不知道如何在中正确传递。 如果有人知道怎么做。。一定很好。多谢多姆
上面的代码给了我一个错误,如下所示 线程“main”java.lang.nosuchmethoderror:org.docx4j.org.xhtmlrenderer.docx.docx.docx.docxrenderer.(ljava/lang/string;)V在org.docx4j.convert.in.xhtml.xhtmlimporterimpl.getrenderer(xhtmlimpo
问题内容: 我正在尝试将通过BeautifulSoup提取的表转换为JSON。 到目前为止,尽管我不确定如何从此处处理数据,但我设法隔离了所有行。任何建议将不胜感激。 (为了方便阅读,换行了) 这是我的尝试: 这给了我以下结果: 问题答案: 您的数据可能类似于: 我们可以使用以下代码从中以列表的形式获得您的结果: 要将结果转换为JSON(如果您不关心顺序): 结果: 如果您需要相同的订单,请使用以