当前位置: 首页 > 知识库问答 >
问题:

Python抓取具有多个和嵌套的站点(具有多个声明的网站)

聂和宜
2023-03-14

我很难从一些网站上删除多个

我正在使用Python 2.7。9与来自bs4的请求和优化组。当我执行请求时。get(url),我注意到结果捕获了outter

我的问题是,有没有一种方法,最好是使用Python,来抓取一个网站的所有信息,该网站由超过1组成。

这个人也有和我一样的问题,;但他或她的问题没有得到回答:https://stackoverflow.com/questions/27259682/mechanize-cutting-off-html-early-python

任何帮助将不胜感激!谢谢。

更新v1:

我环顾StackOverflow,发现了这篇文章:使用Python请求。开始解析不会立即加载的html代码

测试链接是http://www.anthropologie.com/anthro/product/4120200892474.jsp?cm_vc=SEARCH_RESULTS#/.

请注意,测试链接不是我正在使用的链接,但想法几乎是一样的。这两个网站都使用JS来加载附加信息(我应该早点说出来,但我直到现在才意识到,对不起!)。

在尝试Selenium加载我正在处理的页面后(我没有在测试链接上尝试它),我仍然无法获得嵌套html内的信息。

我确信我的Selenium代码按预期工作。有关于我应该如何进行的提示吗?


共有1个答案

锺离嘉容
2023-03-14

我解决了自己的问题。

答案概述如下:

>

  • 使用实际浏览器,最好是Chrome浏览器,并访问相关网站。

    观察并注意Chrome中网络部分下XHR选项卡中的GET/POST请求(右键单击网站并单击“检查元素”)。

    从那里,我们在Python中复制每个GET/POST请求。

    对于每个GET/POST请求,我们可以正常地刮去信息。

    不需要使用硒!

  •  类似资料:
    • 问题内容: 我有一个关于桌子设计的问题。我有一个应该认为可行的解决方案,但是没有。 考虑具有两个实体“ Subject”和“ Process”,它们都具有某些属性。每个“主题”可以与多个“进程”相关联。根据选择哪个“过程”,存在不同数量的实体“过程属性”。换句话说,当用户将“过程”与“主题”相关联时,他应该只能编辑专门链接到该“过程”的“属性”。 最终,我希望用户能够执行3件事: 创建新的“流程”

    • 问题内容: 因此,我正在使用python和beautifulsoup4(我不受其约束)来抓取网站。问题是当我使用urlib抓取页面的html时,它不是整个页面,因为其中一些是通过javascript生成的。有什么办法可以解决这个问题? 问题答案: 基本上有两个主要选项可以继续: 使用浏览器开发人员工具,查看哪些ajax请求将加载页面并在脚本中模拟它们,您可能需要使用json模块将响应json字符串

    • 我面临的问题很简单。如果我试图从一个网站获取一些数据,有两个同名的类。但是它们都包含一个具有不同信息的表。我所拥有的代码只向我输出第一个类的内容。它看起来像这样: 如何让代码输出两个表的内容或仅输出第二个表的内容?提前感谢您的回答!

    • 我正在尝试做一个使用组合键的场景。我想有更多的公钥,这样我就可以用其中任何一个密钥来签署一个txn。 该场景的参考如下:https://docs.corda.net/api/kotlin/corda/net.corda.core.crypto/-composite-key/index.html 根据我的理解,deployNodes任务使用单个公钥生成节点。如果我偏离了轨道,请纠正我。

    • 问题内容: 我想在Java中实现具有多个值的哈希表,即 并且将返回2倍的值。 我怎样才能做到这一点? 问题答案: 您可以改用Multimap。它在列表中为一个键保留多个值。在commons- collection 和Guava中有实现。 这类似于使用值是列表的Hashmap,但是不必显式创建列表。 自己动手做的同一示例如下所示: 请注意,您可以将Multimap用作构建器,并对其调用asMap以返

    • 问题内容: 我需要一种简单的方法来实现JScrollPane,在其中我可以添加JTextAreas。正如您在youtube和Stackoverflow上看到的那样,这应该像评论系统一样工作。 它应该在Java代码中,如果有的话,我想知道它。 我的评论对象包含: 我将评论保存在数据库中,可以轻松启动它们。问题是显示部分。 谢谢您的帮助 问题答案: 你必须承认,有可能把只有一个JComponent中的