爬新闻的时候,针对不同的新闻网站要写不一样的解析代码。有一个大神写了一个工具叫gne,下面是这个工具的GitHub地址:
先要装一下这个包:pip install --upgrade gne
# 导入gne
from gne import GeneralNewsExtractor
html = '''网页的html代码'''
extractor = GeneralNewsExtractor()
# 返回的是一个字典,包括新闻标题、发布日期、作者、正文等内容
result = extractor.extract(html)
print(result['title'])
print(result['publish_time'])
print(result['author'])
print(result['content'])