当前位置: 首页 > 面试题库 >

Python-哪个更适合报废:selenium还是含selenium的beautifulsoup?

公西俊民
2023-03-14
问题内容

此问题适用于Win10上的Python 3.6.3,bs4和Selenium 3.8。

我正在尝试使用动态内容抓取页面。我试图抓取的是数字和文本(例如,来自http://www.oddsportal.com)。以我的理解,使用请求+美丽的汤将无法完成任务,因为动态内容将被隐藏。因此,我必须使用其他工具,例如selenium
webdriver。

然后,假设我仍将使用Selenium WebDriver,建议您忽略BeautifulSoup并坚持使用Selenium WebDriver功能,例如

elem = driver.find_element_by_name("q"))

还是使用selenium+美容汤被认为是更好的做法?

您对两条路线中的哪条路线会给我带来更便捷的功能有什么看法?

谢谢。


问题答案:

美丽汤

Beautifulsoup
Web爬网 的有力工具。它使用 urllib.request Python库。 urllib.request
从静态页面提取数据的功能非常强大。

Selenium 是当前最广泛接受和最有效的 Web自动化
工具。Selenium支持与进行交互Dynamic Pages, Contents and Elements

结论

要创建一个健壮且高效的框架来抓取具有动态内容的页面,您必须将两者 SeleniumBeautifulsoup
框架都集成在一起。浏览动态元素并与之交互, Selenium 并高效地刮取内容 Beautifulsoup

一个例子

下面是一个 example使用 SeleniumBeautifulsoup 用于
Scrapping



 类似资料:
  • 问题内容: 我将很快开始对我们演示文稿的一些自动化测试进行编码。似乎每个人都推荐WatiN和Selenium。您更喜欢ASP.NET Web表单的自动化测试中的哪一个?这些产品中哪个更适合您? 作为附带说明,我注意到WatiN 2.0自2008年3月以来一直在CTP中使用,是否有什么需要关注的? 问题答案: 只是想说,我目前正在努力在2009年第一季度的某个地方对WatiN 2.0进行Beta版测

  • 问题内容: 如果您的目标是测试MySQL列中是否存在字符串(类型为’varchar’,’text’,’blob’等),那么以下哪一项是更快/更有效/更好地使用,为什么? 或者,还有其他方法可以胜任这些方法吗? 与 问题答案: 正如kibibu在上述评论中指出的,FULLTEXT搜索绝对会更快。 但是 : 在我的测试中,它们的表现完全相同。它们都不区分大小写,并且通常会执行全表扫描,这在处理高性能M

  • 我有这样的表达: 以下哪些元素(

  • 我被节点绊倒了。一段时间前的js,非常喜欢它。但很快我发现它严重缺乏执行CPU密集型任务的能力。于是,我开始在谷歌上搜索,找到了解决问题的答案:光纤、网络工作者和线程(thread-a-gogo)。现在使用哪一个是一个困惑,其中一个肯定需要使用-毕竟拥有一个只擅长IO而不擅长其他功能的服务器的目的是什么?需要建议! 更新: 我在想一个迟到的方法;只是需要一些建议。现在,我想到的是:让我们有一些线程

  • 想改进这个问题吗?更新问题,以便通过编辑这篇文章用事实和引用来回答。 我在玩Java*流API,在Lagecy系统中有以下代码: 我编写了与上述代码等价的流,如下所示: 无论哪种方式,我都得到了想要的结果。我的问题是,在这种情况下,哪种性能方面是更好的写作方式?如果我选择其中任何一个而不是另一个,我实际上是否获得了任何价值?地图中包含大约 1000 个值。

  • 这是一位高级经理问的面试问题。 哪个更快? 我说过,这两者具有相同的执行速度,因为内部的表达式最终应计算为或。在这种情况下,两者的计算结果都为,条件中没有额外的条件指令。因此,两者的执行速度相同,我更喜欢while(1)。 但面试官自信地说:“检查一下你的基础,比要快。”(他不是在考验我的信心) 这是真的吗?