当前位置: 首页 > 知识库问答 >
问题:

如何使用Python脚本在批处理中将HTML转换为Markdown〔duplicate〕

房子昂
2023-03-14

我正在尝试将目录下的所有.html文件转换为Markdown。经过一番谷歌搜索,我发现了一个名为html2text的Pypi脚本

然后我编写了一个代码块,可以一次将一个.html转换为.md。

import html2text as ht
import os
import sys

from pathlib import Path

text_maker = ht.HTML2Text()

with open('myHtmlFilePath.html','r',encoding='UTF-8') as f:
    htmlpage = f.read()

text = text_maker.handle(htmlpage)

with open('myMarkdownFileName.md','w') as f:
    f.write(text)

有没有可能我可以将此代码块包装在循环中,以便它可以将文件扩展名为.html的任何文件转换为给定目录下的.md?

共有1个答案

白成济
2023-03-14

如果使用linux,可以使用find命令

Linux操作系统

import os

dir = "."

for file in os.popen("find " + dir).read().splitlines():
    if file.endswith(".html"):
        print(file)

窗子

import os

dir = "."

for i in os.walk(dir):
    for i2 in i[2]:
        if i2.endswith(".html"):
            print(i[0] + "/" + i2)

 类似资料:
  • 本文向大家介绍如何使用Python将HTML转换为PDF,包括了如何使用Python将HTML转换为PDF的使用技巧和注意事项,需要的朋友参考一下 Python提供了Pdfcrowd API v2,可将HTML文档转换为PDF。该API非常易于使用,集成仅需要几行代码。 安装 从网页/ HTML到PDF的以下3个步骤将完成转换 步骤1-下载库pdfkit 步骤2-现在下载wkhtmltopdf 对

  • 问题内容: 我正在寻找C#代码以将HTML文档转换为纯文本。 我不是在寻找简单的标记剥离方法,而是会输出纯文本并 合理 保留原始布局的东西。 输出应如下所示: W3C的Html2Txt 我看过HTML Agility Pack,但我认为这不是我所需要的。有人还有其他建议吗? 编辑: 我只是从CodePlex下载HTML Agility Pack ,并运行了Html2Txt项目。真令人失望(至少是将

  • 问题内容: 如何使用Python将PDF文件转换为HTML? 我只是在想Google会(或似乎会)对PDF文件建立索引的行为。 我的最终目标是设置Apache以显示PDF文件的HTML,因此,向该方向发展的任何事情也将不胜感激。 问题答案: 该poppler的包提供了一个实用PDF2HTML您可能能够使用。还有一个Python绑定到libpoppler。

  • 问题内容: 我有一个html文档,我想从该文档中提取表格并将它们作为数组返回。我正在描绘两个函数,一个函数找到文档中的所有html表,第二个函数将html表转换为二维数组。 像这样: 有2个要注意的地方:1.号码表每天变化2.表格具有各种奇怪的额外格式,例如随机添加的粗体和眨眼标记。 谢谢! 问题答案: Pandas可以立即将html中的所有表格提取到数据框列表中,从而使您不必自己解析页面(重新设

  • 问题内容: 我有一个SQLite3数据库。我做了一个数据转储,看起来像这样: 我试图在PostgreSQL PgAdmin III中执行此操作,这给了我很多错误,从,到日期时间字段的’unsigned’字段设置为1而不是true和0而不是false。 是否有转换此脚本的正确方法? 我曾考虑过将每个表导出为CSV,然后将它们导入PGDB,但是我有太多的表,所以这不是一个选择。 问题答案: 我使用了一

  • 问题内容: 我在表格中存储了HTML片段。 不是整个页面,没有标签等,只是基本格式。 我希望能够在给定页面上将Html仅显示为文本,而 无需设置格式 (实际上只是前30-50个字符,但这很容易)。 如何将Html中的“文本”作为纯文本放入字符串中? 所以这段代码。 成为: 你好,世界。有没有人在那里? 问题答案: 如果您在谈论标签剥离,那么无需担心标签之类的事情就相对简单了。如果您需要做的就是显示