当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

Python-goose

用于文章提取的 Python 库

授权协议 Apache

开发语言 Python

所属分类应用工具、网络爬虫

软件类型开源软件

地区不详

投递者嵇俊德

操作系统跨平台

开源组织无

适用人群未知

软件概览

Python-goose项目是用Python重写的Goose，Goose原来是用Java写的文章提取工具。Python-goose的目标是给定任意资讯文章或者任意文章类的网页，不仅提取出文章的主体，同时提取出所有元信息以及图片等信息，支持中文网页。
Python-goose可提取的信息包括：

文章主体内容
文章主要图片
文章中嵌入的任何Youtube/Vimeo视频
元描述
元标签

示例

>>> from goose import Goose
>>> url = 'http://edition.cnn.com/2012/02/22/world/europe/uk-occupy-london/index.html?hpt=ieu_c2'
>>> g = Goose()
>>> article = g.extract(url=url)
>>> article.title
u'Occupy London loses eviction fight'
>>> article.meta_description
"Occupy London protesters who have been camped outside the landmark St. Paul's Cathedral for the past four months lost their court bid to avoid eviction Wednesday in a decision made by London's Court of Appeal."
>>> article.cleaned_text[:150]
(CNN) -- Occupy London protesters who have been camped outside the landmark St. Paul's Cathedral for the past four months lost their court bid to avoi
>>> article.top_image.src
http://i2.cdn.turner.com/cnn/dam/assets/111017024308-occupy-london-st-paul-s-cathedral-story-top.jpg

使用案例

介绍一个文本提取库 —— Goose

goose3主要用于新闻、文章的主要信息提取。 GOOSE将尝试提取以下信息：文章主文文章图片文章中的YouTube / Vimeo视频描述标记标签使用pip安装 pip install goose3 用法： >>> from goose3 import Goose >>> url = 'http://edition.cnn.com/2012/02/22/world/europe/uk
Python-goose首页、文档和下载 - 用于文章提取的 Python 库 - OSCHINA - 中文开源技术交流社区

Python-goose项目是用Python重写的Goose，Goose原来是用Java写的文章提取工具。Python-goose的目标是给定任意资讯文章或者任意文章类的网页，不仅提取出文章的主体，同时提取出所有元信息以及图片等信息，支持中文网页。 Python-goose可提取的信息包括：文章主体内容文章主要图片文章中嵌入的任何Youtube/Vimeo视频元描述元标签示例 >>>
【AMAD】python-goose -- HTML Content/Article 提取器

动机简介用法个人评分动机新闻网页，结构大多是类似的。所以，能不能用一种通用的爬取方法来提取其中的数据？简介 Goose最初是一个Java项目，在2011年被转为了scala项目1. Py-goose2是使用python重写的版本。这个软件的主要目的不仅是提取一个新闻/文章页面的主要文本，而且会试着提取它所有的元数据以及图片数据。值得一提的是，py-goose相对于newspap
提取数据之goose使用

1.简介 Python-goose项目是用Python重写的Goose，Goose原来是用Java写的文章提取工具。Python-goose的目标是给定任意资讯文章或者任意文章类的网页，不仅提取出文章的主体，同时提取出所有元信息以及图片等信息，支持中文网页。 Python-goose可提取的信息包括：文章主体内容文章主要图片文章中嵌入的任何Youtube/Vimeo视频元描述元标签 2.
python 之 goose3 库

GOOSE3 最初是用Java编写的一篇文章提取器，最近将它（Auff2011）转换成Scala项目，这是python中的完全重写。该软件的目标是获取任何新闻文章或文章类型的网页，不仅提取文章的主体，而且还提取所有元数据和图片。 GOOSE3具体实现功能：文章的正文文章内图片文章中嵌入的任何视频文章描述标签元安装： pip install goose3 mkvirtualenv --n
安装python goose 遇到的python-dev 以及python-devel问题

安装python goose 报错 src/lxml/lxml.etree.c:8:22: 错误：pyconfig.h：没有那个文件或目录 src/lxml/lxml.etree.c:16:20: 错误：Python.h：没有那个文件或目录 src/lxml/lxml.etree.c:18:6: 错误：#error Python headers needed to compile C extens
1000行代码入门python-在知乎上学 Python - 爬虫篇

知乎是个好地方。虽然近年来，为了吸引更多的用户，知乎的定位与早期略有点偏离。但从内容质量和专业性来说，知乎仍然是国内数一数二的知识型社区。不少同学都是通过知乎发现了我们编程教室，我自己也经常会通过知乎去寻求一些专业知识的解答和参考。之前，为了让大家能更好地挖掘知乎上有价值的信息，我们做了一个索引，把编程入门相关的一些问答和文章做了整理：文中曾立下FLAG说之后会整理爬虫、数据分析、机器学习等方
Python - 模块库清单

Chardet，字符编码探测器，可以自动检测文本、网页、xml的编码。 colorama，主要用来给文本添加各种颜色，并且非常简单易用。 Prettytable，主要用于在终端或浏览器端构建格式化的输出。 difflib，Python标准库，计算文本差异 Levenshtein，快速计算字符串相似度。 fuzzywuzzy,字符串模糊匹配。 esmre,正则表达式的加速器。 shortuuid,一

Python-goose

示例

同类工具

相关阅读

相关文章

相关问答

相关文档