当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

GNE

新闻网页正文通用抽取器

授权协议 MIT

开发语言 Python

所属分类应用工具、网络爬虫

软件类型开源软件

地区国产

投递者咸弘雅

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

GNE 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。

在论文中描述的正文提取基础上，还增加了标题、发布时间和文章作者的自动化探测与提取功能。

最后的输出效果如下图所示：

本项目取名为抽取器，而不是爬虫，是为了规避不必要的风险，因此，本项目的输入是 HTML，输出是一个字典。请自行使用恰当的方法获取目标网站的 HTML。

在线体验

如果你想先体验 GNE 的提取效果，那么你可以访问http://gne.kingname.info/。一般情况下，你只需要把网页粘贴到最上面的多行文本框中，然后点提取按钮即可。通过附加更多的参数，可以让提取更精确。具体参数的写法与作用，请参阅 API

使用环境

如果你想体验 GNE 的功能，请按照如下步骤进行：

安装 GNE

# 以下两种方案任选一种即可

# 使用 pip 安装
pip install --upgrade gne

# 使用 pipenv 安装
pipenv install gne

使用 GNE

提取正文

>>> from gne import GeneralNewsExtractor

>>> html = '''经过渲染的网页 HTML 代码'''

>>> extractor = GeneralNewsExtractor()
>>> result = extractor.extract(html, noise_node_list=['//div[@class="comment-list"]'])
>>> print(result)

{"title": "xxxx", "publish_time": "2019-09-10 11:12:13", "author": "yyy", "content": "zzzz", "images": ["/xxx.jpg", "/yyy.png"]}

更多使用说明，请参阅 GNE 的文档

提取列表页(测试版)

>>> from gne import ListPageExtractor
>>> html = '''经过渲染的网页 HTML 代码'''
>>> list_extractor = ListPageExtractor()
>>> result = list_extractor.extract(html,
                                    feature='列表中任意元素的 XPath")
>>> print(result)

运行截图

网易新闻

今日头条

新浪新闻

使用案例

python GNE 爬虫通用提取文章信息模块

GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块，输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE 在提取今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色，几乎能够达到 100%的准确率。如何安装 GNE 直接使用 pip 安装
【gne 文本预处理】python正文提取方法GeneralNewsExtractor

GNE是一个准确率高达99.9%的新闻类网页通用抽取器。有了这个神器，我们不再需要xpath写来写去，这适合通用的新闻资讯类网页正文内容提取。下面我们以南方周末，一个网页例子为说明。 GNE（GeneralNewsExtractor）是一个通用新闻网站正文抽取模块，输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址。安装gne： pip install gne
python3+gne+selenium实现的新闻类爬虫

本文主要介绍执行该爬虫所需的环境搭建，其他不多赘述。环境搭建分以下3步，python3运行环境搭建、本地浏览器驱动安装、爬虫依赖包安装。一、Python3运行环境搭建 Mac系统安装Python推荐使用Homebrew安装，即先安装homebrew，再使用brew命令安装Python。复制下面的命令，粘贴到Mac的终端命令行执行，安装需要等待一段时间 /bin/bash -c "$(curl
Python通用新闻网站正文抽取器：GNE

GeneralNewsExtractor（GNE）是一个通用新闻网站正文抽取模块，输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色，几乎能够达到100%的准确率。安装 # 以下两种方案任选一种即可 # 使用
阿里云本地SSD型实例i2gne云服务器配置性能详解

阿里云本地SSD型实例i2gne云服务器配置性能CPU、内存、适用场景、本地SSD型i2gne实例规格族和优惠报价信息，InstanceTypes分享本地SSD型i2gne实例详解：本地SSD型i2gne实例规格族特性 I/O优化实例仅支持SSD云盘和高效云盘配备高性能（高IOPS、大吞吐、低访问延迟）NVMe SSD本地盘实例网络带宽最高可达20 Gbit/s 处理器与内存配比为1:4
gne——新闻网页的页面解析工具介绍

gne——新闻网页的页面解析工具介绍说明爬新闻的时候，针对不同的新闻网站要写不一样的解析代码。有一个大神写了一个工具叫gne，下面是这个工具的GitHub地址： gne——Github 先要装一下这个包：pip install --upgrade gne 使用方法 # 导入gne from gne import GeneralNewsExtractor html = '''网页的html代码

GNE

在线体验

使用环境

安装 GNE

使用 GNE

运行截图

网易新闻

今日头条

新浪新闻

同类工具

相关阅读

相关文章

相关问答

相关文档