当前位置: 首页 > 面试题库 >

使用BeautifulSoup或LXML.HTML进行Web爬网

胡承悦
2023-03-14
问题内容

我已经看过一些网络广播,并且在尝试执行此操作时需要帮助:我一直在使用lxml.html。雅虎最近改变了网络结构。

目标页面;

http://finance.yahoo.com/quote/IBM/options?date=1469750400&straddle=true

在Chrome中使用检查器:我在

 //*[@id="main-0-Quote-Proxy"]/section/section/div[2]/section/section/table

然后再写一些代码

如何将这些数据放入列表中。我想将其他股票从“ LLY”更改为“ Msft”吗?
我该如何在日期之间切换....并获得所有月份。


问题答案:

将答案基于@hoju:

import lxml.html
import calendar
from datetime import datetime

exDate  = "2014-11-22"
symbol  = "LLY"
dt      = datetime.strptime(exDate, '%Y-%m-%d')
ym      = calendar.timegm(dt.utctimetuple())

url     = 'http://finance.yahoo.com/q/op?s=%s&date=%s' % (symbol, ym,)
doc     = lxml.html.parse(url)
table   = doc.xpath('//table[@class="details-table quote-table Fz-m"]/tbody/tr')

rows    = []        
for tr in table:
     d = [td.text_content().strip().replace(',','') for td in tr.xpath('./td')]
     rows.append(d)

print rows


 类似资料:
  • 问题内容: 我正在从事一个涉及解析HTML的项目。 搜索后,我发现了两个可能的选项:BeautifulSoup和lxml.html 有什么理由比另一个更喜欢吗?一段时间以前,我已经将lxml用于XML,但我觉得我会更满意,但是BeautifulSoup似乎很常见。 我知道我应该使用对我有用的产品,但是我一直在寻找两者的亲身经历。 问题答案: 简单的答案imo是,如果您相信源代码格式正确,请使用lx

  • 问题内容: 我试图从HTML中提取许多页面的数据(数字)。每个页面的数据都不同。当我尝试使用soup.select(’span [class =“ pull- right”]’)时,它应该给我编号,但只有标签出现。我相信这是因为网页中使用了Javascript。180,476是我要在许多页面上使用的特定HTML处的数据位置: 我的代码(这在很多页面上都是循环的): 输出: 范例网址:https:/

  • 我看到了一些像http://homes.mitula.ph/homes/makati这样的搜索网站,我想知道他们是如何抓取其他网站(如、和)中的数据并将其显示到他们的站点上的。 我正在考虑使用Solr索引数据,使用Nutch抓取数据。我是一个新的网页抓取和索引,目前为止,我只能抓取一个网页的内容。 Solr Nutch能做那种爬行吗?怎么做的?

  • 注解 本教程所使用的样例站Google Directory已经 被Google关闭 了。不过教程中的概念任然适用。 如果您打算使用一个新的网站来更新本教程,您的贡献是再欢迎不过了。 详细信息请参考 Contributing to Scrapy 。 介绍 本文档介绍了如何适用 Firebug (一个Firefox的插件)来使得爬取更为简单,有趣。 更多有意思的Firefox插件请参考 对爬取有帮助的

  • 我试图刮一个页面与美丽的汤,有

  • 我正在尝试解析此站点的表。我用蟒蛇靓汤来做这个。虽然它在我的Ubuntu 14.04机器上产生了正确的输出,但在我朋友的windows机器上却产生了错误的输出。我将代码片段粘贴到此处: 你知道这里会出什么问题吗?我试过使用和不使用lxml。 提前谢谢。

  • Xpath( XML Path Language, XML路径语言),是一种在 XML 数据中查找信息的语言,现在,我们也可以使用它在 HTML 中查找需要的信息。 既然谈到 Xpath 是一门语言,当然它就会有自己的一些特定的语法。我们这里罗列一些经常使用的语法,熟悉下面的基本语法之后,就能满足我们日常的爬虫开发所用。 本小节主要内容: Xpath的基本概念 Xpath的基本语法 Xpath实战

  • 我需要从一个网站刮去内容(只是标题)。我做了一个页面,但我会需要做的网站上的所有页面。目前,我正在做以下工作: 我知道,当我移动到下一页时,url会发生如下变化: 我尝试使用next_page_url=base_url+next_page_partial构建一个递归函数,但它不会移动到下一页。 我遵循这个问题(和答案):移动到下一页使用BeautifulSoup刮刮 如果你需要更多的信息请告诉我。