当前位置: 首页 > 软件库 > 应用工具 > 网络爬虫 >

Python-goose

用于文章提取的 Python 库
授权协议 Apache
开发语言 Python
所属分类 应用工具、 网络爬虫
软件类型 开源软件
地区 不详
投 递 者 嵇俊德
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Python-goose项目是用Python重写的Goose,Goose原来是用Java写的文章提取工具。Python-goose的目标是给定任意资讯文章或者任意文章类的网页,不仅提取出文章的主体,同时提取出所有元信息以及图片等信息,支持中文网页。
Python-goose可提取的信息包括:

  • 文章主体内容

  • 文章主要图片

  • 文章中嵌入的任何Youtube/Vimeo视频

  • 元描述

  • 元标签

示例

>>> from goose import Goose
>>> url = 'http://edition.cnn.com/2012/02/22/world/europe/uk-occupy-london/index.html?hpt=ieu_c2'
>>> g = Goose()
>>> article = g.extract(url=url)
>>> article.title
u'Occupy London loses eviction fight'
>>> article.meta_description
"Occupy London protesters who have been camped outside the landmark St. Paul's Cathedral for the past four months lost their court bid to avoid eviction Wednesday in a decision made by London's Court of Appeal."
>>> article.cleaned_text[:150]
(CNN) -- Occupy London protesters who have been camped outside the landmark St. Paul's Cathedral for the past four months lost their court bid to avoi
>>> article.top_image.src
http://i2.cdn.turner.com/cnn/dam/assets/111017024308-occupy-london-st-paul-s-cathedral-story-top.jpg
  • goose3主要用于新闻、文章的主要信息提取。 GOOSE将尝试提取以下信息: 文章主文 文章图片 文章中的YouTube / Vimeo视频 描述标记 标签 使用pip安装 pip install goose3 用法: >>> from goose3 import Goose >>> url = 'http://edition.cnn.com/2012/02/22/world/europe/uk

  • Python-goose项目是用Python重写的Goose,Goose原来是用Java写的文章提取工具。Python-goose的目标是给定任意资讯文章或者任意文章类的网页,不仅提取出文章的主体,同时提取出所有元信息以及图片等信息,支持中文网页。 Python-goose可提取的信息包括: 文章主体内容 文章主要图片 文章中嵌入的任何Youtube/Vimeo视频 元描述 元标签 示例 >>> 

  • 动机 简介 用法 个人评分 动机 新闻网页,结构大多是类似的。 所以,能不能用一种通用的爬取方法来提取其中的数据? 简介 Goose最初是一个Java项目,在2011年被转为了scala项目1. Py-goose2是使用python重写的版本。这个软件的主要目的不仅是提取一个 新闻/文章 页面的主要文本,而且会试着提取它所有的元数据以及图片数据。 值得一提的是,py-goose相对于newspap

  • 1.简介 Python-goose项目是用Python重写的Goose,Goose原来是用Java写的文章提取工具。Python-goose的目标是给定任意资讯文章或者任意文章类的网页,不仅提取出文章的主体,同时提取出所有元信息以及图片等信息,支持中文网页。 Python-goose可提取的信息包括: 文章主体内容 文章主要图片 文章中嵌入的任何Youtube/Vimeo视频 元描述 元标签 2.

  • GOOSE3 最初是用Java编写的一篇文章提取器,最近将它(Auff2011)转换成Scala项目,这是python中的完全重写。该软件的目标是获取任何新闻文章或文章类型的网页,不仅提取文章的主体,而且还提取所有元数据和图片。 GOOSE3具体实现功能: 文章的正文 文章内图片 文章中嵌入的任何视频 文章描述 标签元 安装: pip install goose3 mkvirtualenv --n

  • 安装python goose 报错 src/lxml/lxml.etree.c:8:22: 错误:pyconfig.h:没有那个文件或目录 src/lxml/lxml.etree.c:16:20: 错误:Python.h:没有那个文件或目录 src/lxml/lxml.etree.c:18:6: 错误:#error Python headers needed to compile C extens

  • 知乎是个好地方。虽然近年来,为了吸引更多的用户,知乎的定位与早期略有点偏离。但从内容质量和专业性来说,知乎仍然是国内数一数二的知识型社区。不少同学都是通过知乎发现了我们编程教室,我自己也经常会通过知乎去寻求一些专业知识的解答和参考。 之前,为了让大家能更好地挖掘知乎上有价值的信息,我们做了一个索引,把编程入门相关的一些问答和文章做了整理: 文中曾立下FLAG说之后会整理爬虫、数据分析、机器学习等方

  • Chardet,字符编码探测器,可以自动检测文本、网页、xml的编码。 colorama,主要用来给文本添加各种颜色,并且非常简单易用。 Prettytable,主要用于在终端或浏览器端构建格式化的输出。 difflib,Python标准库,计算文本差异 Levenshtein,快速计算字符串相似度。 fuzzywuzzy,字符串模糊匹配。 esmre,正则表达式的加速器。 shortuuid,一

 相关资料
  • 本文向大家介绍Python实现提取文章摘要的方法,包括了Python实现提取文章摘要的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Python实现提取文章摘要的方法。分享给大家供大家参考。具体如下: 一、概述 在博客系统的文章列表中,为了更有效地呈现文章内容,从而让读者更有针对性地选择阅读,通常会同时提供文章的标题和摘要。 一篇文章的内容可以是纯文本格式的,但在网络盛行的当今,更多

  • 问题内容: 如何使用Python从Wikipedia文章中提取第一段? 例如,对于 Albert Einstein ,那将是: 阿尔伯特·爱因斯坦(发音:/ ˈælbərt ˈaɪnstaɪn /;德语:[ˈalbɐt ˈaɪnʃtaɪn](听); 1879年3月14日至1955年4月18日)是一位理论物理学家,哲学家和作家,被广泛认为是最有影响力和标志性的科学家和知识分子之一所有的时间。爱因斯坦

  • 问题内容: 我尝试使用Python的urllib来获取Wikipedia文章: 但是,我得到的不是HTML页面,而是以下响应:错误-Wikimedia Foundation: 维基百科似乎阻止了不是来自标准浏览器的请求。 有人知道如何解决此问题吗? 问题答案: 你需要使用的urllib2是superseedes的urllib在蟒蛇STD库,以改变用户代理。 直接从例子

  • 本文向大家介绍python 爬取微信文章,包括了python 爬取微信文章的使用技巧和注意事项,需要的朋友参考一下 本人想搞个采集微信文章的网站,无奈实在从微信本生无法找到入口链接,网上翻看了大量的资料,发现大家的做法总体来说大同小异,都是以搜狗为入口。下文是笔者整理的一份python爬取微信文章的代码,有兴趣的欢迎阅读

  • 问题内容: 我有这个示例xml文件 我喜欢提取标题标签和内容标签的内容。 使用模式匹配或使用xml模块,哪种方法最适合提取数据。还是有更好的方法来提取数据。 问题答案: 特别是已经有一个内置的XML库。例如:

  • 问题内容: 我正在尝试学习一些漂亮的汤,并从一些iFrame中获取一些html数据-但到目前为止,我还没有取得很大的成功。 因此,解析iFrame本身似乎不是BS4的问题,但是我似乎并没有从中获得嵌入的内容-不管我做什么。 例如,考虑下面的iFrame(这是我在chrome开发人员工具上看到的): 我要提取的内容在哪里。 但是,当我使用以下BS4代码时: 我得到: 换句话说,我得到的iFrame中