当前位置：首页 > 面试题库 >

使用BeautifulSoup或LXML.HTML进行Web爬网

胡承悦

2023-03-14

问题内容：

我已经看过一些网络广播，并且在尝试执行此操作时需要帮助：我一直在使用lxml.html。雅虎最近改变了网络结构。

目标页面；

http://finance.yahoo.com/quote/IBM/options?date=1469750400&straddle=true

在Chrome中使用检查器：我在

 //*[@id="main-0-Quote-Proxy"]/section/section/div[2]/section/section/table

然后再写一些代码

如何将这些数据放入列表中。我想将其他股票从“ LLY”更改为“ Msft”吗？
我该如何在日期之间切换....并获得所有月份。

问题答案：

将答案基于@hoju：

import lxml.html
import calendar
from datetime import datetime

exDate  = "2014-11-22"
symbol  = "LLY"
dt      = datetime.strptime(exDate, '%Y-%m-%d')
ym      = calendar.timegm(dt.utctimetuple())

url     = 'http://finance.yahoo.com/q/op?s=%s&date=%s' % (symbol, ym,)
doc     = lxml.html.parse(url)
table   = doc.xpath('//table[@class="details-table quote-table Fz-m"]/tbody/tr')

rows    = []        
for tr in table:
     d = [td.text_content().strip().replace(',','') for td in tr.xpath('./td')]
     rows.append(d)

print rows

类似资料：

BeautifulSoup和lxml.html-首选什么？

问题内容：我正在从事一个涉及解析HTML的项目。搜索后，我发现了两个可能的选项：BeautifulSoup和lxml.html 有什么理由比另一个更喜欢吗？一段时间以前，我已经将lxml用于XML，但我觉得我会更满意，但是BeautifulSoup似乎很常见。我知道我应该使用对我有用的产品，但是我一直在寻找两者的亲身经历。问题答案：简单的答案imo是，如果您相信源代码格式正确，请使用lx
使用Python，BeautifulSoup进行动态数据Web抓取

问题内容：我试图从HTML中提取许多页面的数据（数字）。每个页面的数据都不同。当我尝试使用soup.select（’span [class =“ pull- right”]’）时，它应该给我编号，但只有标签出现。我相信这是因为网页中使用了Javascript。180,476是我要在许多页面上使用的特定HTML处的数据位置：我的代码（这在很多页面上都是循环的）：输出：范例网址：https：/
使用Solr Nutch对特定数据进行Web爬网

我看到了一些像http://homes.mitula.ph/homes/makati这样的搜索网站，我想知道他们是如何抓取其他网站（如、和）中的数据并将其显示到他们的站点上的。我正在考虑使用Solr索引数据，使用Nutch抓取数据。我是一个新的网页抓取和索引，目前为止，我只能抓取一个网页的内容。 Solr Nutch能做那种爬行吗？怎么做的？
使用Firebug进行爬取

注解本教程所使用的样例站Google Directory已经被Google关闭了。不过教程中的概念任然适用。如果您打算使用一个新的网站来更新本教程，您的贡献是再欢迎不过了。详细信息请参考 Contributing to Scrapy 。介绍本文档介绍了如何适用 Firebug (一个Firefox的插件)来使得爬取更为简单，有趣。更多有意思的Firefox插件请参考对爬取有帮助的
使用BeautifulSoup进行刮削标记

我试图刮一个页面与美丽的汤，有
使用python beautifulsoup进行Web解析时产生不一致的结果

我正在尝试解析此站点的表。我用蟒蛇靓汤来做这个。虽然它在我的Ubuntu 14.04机器上产生了正确的输出，但在我朋友的windows机器上却产生了错误的输出。我将代码片段粘贴到此处：你知道这里会出什么问题吗？我试过使用和不使用lxml。提前谢谢。
09 使用 Xpath 进行爬虫开发

Xpath( XML Path Language, XML路径语言)，是一种在 XML 数据中查找信息的语言，现在，我们也可以使用它在 HTML 中查找需要的信息。既然谈到 Xpath 是一门语言，当然它就会有自己的一些特定的语法。我们这里罗列一些经常使用的语法，熟悉下面的基本语法之后，就能满足我们日常的爬虫开发所用。本小节主要内容: Xpath的基本概念 Xpath的基本语法 Xpath实战
使用BeautifulSoup进行刮擦移动到下一页

我需要从一个网站刮去内容（只是标题）。我做了一个页面，但我会需要做的网站上的所有页面。目前，我正在做以下工作：我知道，当我移动到下一页时，url会发生如下变化：我尝试使用next_page_url=base_url+next_page_partial构建一个递归函数，但它不会移动到下一页。我遵循这个问题（和答案）：移动到下一页使用BeautifulSoup刮刮如果你需要更多的信息请告诉我。

相关阅读

Python反爬虫伪装浏览器进行爬虫与使用lxml.html解析HTML时的InnerHTML等效 Java Web爬网程序库使用VBA进行Web抓取（当HTML <> DOM时）使用BeautifulSoup搜索Yahoo Finance

相关文章

教你用Python爬取表情包在Spring中使用JdbcTemplate进行数据库管理操作网络爬虫是什么用Python爬取某宝商品数据 [实例]爬虫抓取网页

相关问答

使用rvest进行Web刮取用BeautifulSoup或Pandas刮表数据使用Akka从Play app进行Web服务调用使用BeautifulSoup进行刮削时，输出带有正确标签的None 使用Python对隐藏表进行Web刮取

相关工具

BeautifulSoup 利用CoreImage进行人脸识别利用plist进行多语言切换神箭手云爬虫利用Audio Unit类进行播放声音

相关文档

爬虫课件 Python 原生爬虫教程利用 Python 进行数据分析 · 第 2 版 Python 进行机器学习 WebMagic 爬虫框架中文文档