使用Python请求。开始解析不会立即加载的html代码

常宸

2023-03-14

我试图写一个Python脚本，它将定期检查一个网站，看看是否有项目可用。我在过去成功地使用了requests.get、lxml.html和xpath来自动化网站搜索。在这个特定的网址（http://www.anthropologie.com/anthro/product/4120200892474.jsp?cm_vc=SEARCH_RESULTS#/）和同一网站上的其他网址的情况下，我的代码不起作用。

import requests
from lxml import html
page = requests.get("http://www.anthropologie.com/anthro/product/4120200892474.jsp?cm_vc=SEARCH_RESULTS#/")
tree = html.fromstring(page.text)
html_element = tree.xpath(".//div[@class='product-soldout ng-scope']")

此时，html_element应该是一个元素列表（我认为在这种情况下只有1），但它是空的。我认为这是因为网站不是一次加载的，所以当requests.get（）出去抓取它时，它只是抓取了第一部分。所以我的问题是1：我对这个问题的评估正确吗？如果是这样，有没有办法让requests.get（）在返回html之前等待，或者完全通过另一个路由来获取整个页面。

谢谢

编辑：感谢这两个回复。我使用了Selenium并使脚本正常工作。

共有2个答案

孔宇

2023-03-14

页面使用javascript加载在请求获取html时未加载的表，因此您获取的是所有html，而不是使用javascript生成的html，您可以使用selenium结合phantomjs进行无头浏览以获取html：

from selenium import webdriver

browser = webdriver.PhantomJS()
browser.get("http://www.anthropologie.eu/anthro/index.jsp#/")
html = browser.page_source
print(html)

狄元魁

2023-03-14

你对这个问题的评估不正确。

您可以检查结果并查看是否存在

和请求。文本总是占据整个页面；如果您想一次流一点，就必须显式地这样做。

您的问题是，该表实际上不存在于HTML中；它是通过客户端JavaScript动态构建的。您可以通过实际读取返回的HTML看到这一点。所以，除非你运行JavaScript，否则你没有这些信息。

对此有许多普遍的解决办法。例如：

使用selenium或类似工具驱动实际浏览器下载页面
手动计算JavaScript代码的功能，并在Python中执行等效的工作
对已构建的DOM运行无头JavaScript解释器

类似资料：

使用Python request.get解析无法一次加载的html代码

问题内容：我正在尝试编写一个Python脚本，该脚本将定期检查网站以查看某项是否可用。过去，我已经成功使用了request.get，lxml.html和xpath来自动执行网站搜索。对于此特定URL（http://www.anthropologie.com/anthro/product/4120200892474.jsp?cm_vc=SEARCH_RESULTS#/）和同一网站上的其他URL ，
解析原始HTTP请求

问题内容：我正在处理HTTP流量数据集，该数据集由完整的POST和GET请求组成，如下所示。我已经用Java编写了代码，该代码已经分离了每个请求，并将其另存为数组列表中的字符串元素。现在我很困惑如何在Java中解析这些原始HTTP请求，有什么方法比手动解析更好吗？问题答案：我[正在]处理[HTTP]流量数据集，该数据集由完整的POST和GET请求组成因此，您想解析包含多个HTTP请求的文
解析原始HTTP请求

我正在研究HTTP流量数据集，它由完整的POST和GET请求组成，如下所示。我用java编写了代码，将每个请求分开，并将其保存为数组列表中的字符串元素。现在我很困惑如何在java中解析这些原始HTTP请求，有什么方法比手动解析更好吗？
jQuery解析HTML而不加载图像

问题内容：我从其他页面加载HTML以提取并显示该页面中的数据：确实可以，但是由于我的浏览器尝试加载在205.html中链接的图像。这些图像在我的域中不存在，因此出现很多404错误。有没有办法像解析页面一样但不将整个页面加载到浏览器中？问题答案：实际上，如果您查看jQuery文档，它说您可以将“所有者文档”作为第二个参数传递给。因此，我们可以做的是创建一个虚拟文档，以使浏览器不会自动加载
使用Python请求获取HTML？

问题内容：我正在尝试教自己一些基本的网络抓取。使用Python的请求模块，在尝试以下操作之前，我能够抓取各种网站的html：我得到的不是基本的html，而是本页面的内容：我已经尝试过将get / post与我可以从文档，SO和其他示例中猜到的每种语法进行多种组合。我不明白上面看到的内容，无法将其转换为可以阅读的任何内容，也无法弄清楚如何获得自己真正想要的东西。我的问题是，如何获取以上页面的h
Python Http请求json解析库用法解析

本文向大家介绍Python Http请求json解析库用法解析，包括了Python Http请求json解析库用法解析的使用技巧和注意事项，需要的朋友参考一下 httpparser介绍：1.解析字节类型的http与https请求数据：2.支持已k-v形式修改请求数据：3.支持重新编码请求数据源码如何使用 1.解析请求数据 request_first,request_headers,req

使用Python请求。开始解析不会立即加载的html代码

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档