当前位置: 首页 > 面试题库 >

HTML抓取的选项?

壤驷深
2023-03-14
问题内容

我正在考虑尝试BeautifulSoup,一个用于HTML抓取的Python包。还有其他我应该查看的HTML抓包工具吗?Python不是必需的,我实际上也对其他语言感兴趣。

到目前为止的故事:

  • Python
  • Beautiful Soup
  • lxml
  • HTQL
  • Scrapy
  • Mechanize

  • Ruby

  • Nokogiri
  • Hpricot
  • Mechanize
  • scrAPI
  • scRUBYt!
  • wombat
  • Watir

  • .NET

  • Html Agility Pack
  • WatiN

  • Perl

  • WWW::Mechanize
  • Web-Scraper

  • Java

  • Tag Soup
  • HtmlUnit
  • Web-Harvest
  • jARVEST
  • jsoup
  • Jericho HTML Parser

  • JavaScript

  • request
  • cheerio
  • artoo
  • node-horseman
  • phantomjs

  • PHP

  • Goutte
  • htmlSQL
  • PHP Simple HTML DOM Parser
  • PHP Scraping with CURL
  • ScarletsQuery

  • Most of them

  • Screen-Scraper

问题答案:

在Ruby世界中,相当于BeautifulSoup的是why_the_lucky_stiff的Hpricot



 类似资料:
  • 网页爬取 编写网页需要使用 HTML 语言,如果你有 HTML 学习经历就能知道所谓 HTML 语言就是一种规格化文档。有时我们能很方便的从中获取一些需要的数据,并且保持数据原有格式,如 csv 、json 等格式。但有时网站并不会提供一目了然的数据格式。 所以我们就需要爬取网页。网页爬取就是通过电脑程序编写,从不同的网页中去删选、挖掘你需要的数据,并且保存数据相应的格式。 网页请求( Reque

  • 在基于爬虫的扫描期间,可以使用许多选项来配置Burp Scanner的行为。这些可以在启动扫描时来配置,或者可以在Burp的配置库中进行配置。 抓取优化 这些设置控制爬虫逻辑的行为,以反映爬虫的目标和应用程序的性质。 最大链接深度 最大链接深度表示爬虫程序将从起始URL创建的链接的最大跃点深度(包括单击链接和提交表单)。现代应用程序倾向于在菜单和页脚等位置为每个响应构建大量导航链接。因此可以在起始

  • 问题内容: 我一直在使用正则表达式在PHP中进行HTML抓取。这是可行的,但结果是挑剔和脆弱的。有没有人使用过提供更强大解决方案的软件包?配置驱动的解决方案将是理想的选择,但我并不挑剔。 问题答案: 从页面抓取HTML后,我将推荐PHP简单HTMLDOM解析器。它支持无效的HTML,并提供了一种非常简单的方法来处理HTML元素。

  • 问题内容: 该网站在一个列表中列出了250多种课程。我想获取每个课程的名称,然后使用php将其插入到我的mysql数据库中。这些课程如下所示: 有没有办法在PHP中做到这一点,而不是让我陷入疯狂的数据输入梦night? 问题答案: 正则表达式效果很好。 请参阅文档 preg_match。

  • 问题内容: 我需要用python抓取网站。我使用urlib模块获取了源html代码,但是我还需要抓取由javascript函数(包含在html源代码中)生成的html代码。该功能在站点中的作用是,当您按下按钮时,它会输出一些html代码。如何使用python代码“按”此按钮?可以帮助我吗?我用firebug捕获了POST请求,但是当我尝试在url上传递它时,出现403错误。有什么建议么? 问题答案

  • 我正在使用JSoup,这是纯Java中的一个HTML解析器库,从互联网上提取和解析纯HTML页面(当然,只有很少的JS)。到目前为止,如果我想要刮取的数据附加到非常详细的HTML元素(如