当前位置: 首页 > 工具软件 > GNE > 使用案例 >

【gne 文本预处理】python正文提取方法GeneralNewsExtractor

穆鸿飞
2023-12-01

GNE是一个准确率高达99.9%的新闻类网页通用抽取器。有了这个神器,我们不再需要xpath写来写去,这适合通用的新闻资讯类网页正文内容提取。下面我们以南方周末,一个网页例子为说明。

GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址。

安装gne:

pip install gne
or
pip install gne -i https://mirrors.163.com/pypi/simple/

python 版本:(不低于python3.6)
python3.7.5

在 extract(html) 方法只传入网页源代码,不添加任何额外参数时,GNE 返回如下字段:

title:新闻标题
publish_time:新闻发布时间
author:新闻作者
content:新闻正文
im
 类似资料: