问题：

如何使用Python脚本在批处理中将HTML转换为Markdown〔duplicate〕

房子昂

2023-03-14

我正在尝试将目录下的所有.html文件转换为Markdown。经过一番谷歌搜索，我发现了一个名为html2text的Pypi脚本。

然后我编写了一个代码块，可以一次将一个.html转换为.md。

import html2text as ht
import os
import sys

from pathlib import Path

text_maker = ht.HTML2Text()

with open('myHtmlFilePath.html','r',encoding='UTF-8') as f:
    htmlpage = f.read()

text = text_maker.handle(htmlpage)

with open('myMarkdownFileName.md','w') as f:
    f.write(text)

有没有可能我可以将此代码块包装在循环中，以便它可以将文件扩展名为.html的任何文件转换为给定目录下的.md？

共有1个答案

白成济

2023-03-14

如果使用linux，可以使用find命令

Linux操作系统

import os

dir = "."

for file in os.popen("find " + dir).read().splitlines():
    if file.endswith(".html"):
        print(file)

窗子

import os

dir = "."

for i in os.walk(dir):
    for i2 in i[2]:
        if i2.endswith(".html"):
            print(i[0] + "/" + i2)

类似资料：

如何使用Python将HTML转换为PDF

本文向大家介绍如何使用Python将HTML转换为PDF，包括了如何使用Python将HTML转换为PDF的使用技巧和注意事项，需要的朋友参考一下 Python提供了Pdfcrowd API v2，可将HTML文档转换为PDF。该API非常易于使用，集成仅需要几行代码。安装从网页/ HTML到PDF的以下3个步骤将完成转换步骤1-下载库pdfkit 步骤2-现在下载wkhtmltopdf 对
如何在C＃中将HTML转换为文本？

问题内容：我正在寻找C＃代码以将HTML文档转换为纯文本。我不是在寻找简单的标记剥离方法，而是会输出纯文本并合理保留原始布局的东西。输出应如下所示： W3C的Html2Txt 我看过HTML Agility Pack，但我认为这不是我所需要的。有人还有其他建议吗？编辑：我只是从CodePlex下载HTML Agility Pack ，并运行了Html2Txt项目。真令人失望（至少是将
使用Python将PDF转换为HTML

问题内容：如何使用Python将PDF文件转换为HTML？我只是在想Google会（或似乎会）对PDF文件建立索引的行为。我的最终目标是设置Apache以显示PDF文件的HTML，因此，向该方向发展的任何事情也将不胜感激。问题答案：该poppler的包提供了一个实用PDF2HTML您可能能够使用。还有一个Python绑定到libpoppler。
如何在python中将HTML表转换为数组

问题内容：我有一个html文档，我想从该文档中提取表格并将它们作为数组返回。我正在描绘两个函数，一个函数找到文档中的所有html表，第二个函数将html表转换为二维数组。像这样：有2个要注意的地方：1.号码表每天变化2.表格具有各种奇怪的额外格式，例如随机添加的粗体和眨眼标记。谢谢！问题答案： Pandas可以立即将html中的所有表格提取到数据框列表中，从而使您不必自己解析页面（重新设
如何将SQLite3脚本转换为PostgreSQL可以理解的脚本？

问题内容：我有一个SQLite3数据库。我做了一个数据转储，看起来像这样：我试图在PostgreSQL PgAdmin III中执行此操作，这给了我很多错误，从，到日期时间字段的’unsigned’字段设置为1而不是true和0而不是false。是否有转换此脚本的正确方法？我曾考虑过将每个表导出为CSV，然后将它们导入PGDB，但是我有太多的表，所以这不是一个选择。问题答案：我使用了一
您如何将HTML转换为纯文本？

问题内容：我在表格中存储了HTML片段。不是整个页面，没有标签等，只是基本格式。我希望能够在给定页面上将Html仅显示为文本，而无需设置格式（实际上只是前30-50个字符，但这很容易）。如何将Html中的“文本”作为纯文本放入字符串中？所以这段代码。成为：你好，世界。有没有人在那里？问题答案：如果您在谈论标签剥离，那么无需担心标签之类的事情就相对简单了。如果您需要做的就是显示

如何使用Python脚本在批处理中将HTML转换为Markdown〔duplicate〕

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档