在之前找了很多的库把html转换为markdown的格式,有些库效果并不是非常的好,后面使用了html2text,效果有点提升。
html2text
的原理是使用HTMLParser
对html的标签逐一的进行解析,并根据各个标签还原为markdown的格式。
html2text
的地址在:
http://www.aaronsw.com/2002/html2text/
它是一个网页格式工具,能够在线把网站转换为markdown的格式,下载里面的html2text.py
,放到自己的工程里。
github
上的地址在:
https://github.com/aaronsw/html2text
用起来也比起其他的库会来的简单点:
import html2text
article_content = ""
html2text.html2text(article_content)
有的时候html2text
并不能很好的理解我们需要的markdown,好在html2text.py
并不是非常的复杂,我们可以在这个源码的基础上在进行相应的修改。