当前位置：首页 > 面试题库 >

如何在python中使用Selenium和Beautifulsoup解析网站？

汪天宇

2023-03-14

问题内容：

编程新手，并弄清楚了如何使用Selenium导航到我需要去的地方。我想立即解析数据，但不确定从哪里开始。有人可以握我的手几秒钟，并朝正确的方向指点我吗？

任何帮助表示赞赏-

问题答案：

假设您在要解析的页面上，Selenium将源HTML存储在驱动程序的page_source属性中。这样，你会加载page_source到BeautifulSoup如下：

In [8]: from bs4 import BeautifulSoup

In [9]: from selenium import webdriver

In [10]: driver = webdriver.Firefox()

In [11]: driver.get('http://news.ycombinator.com')

In [12]: html = driver.page_source

In [13]: soup = BeautifulSoup(html)

In [14]: for tag in soup.find_all('title'):
   ....:     print tag.text
   ....:     
   ....:     
Hacker News

类似资料：

如何在python中使用selenium和beautifulsoup从网站上抓取报纸文章？

问题内容：我正在尝试从报纸（纽约时间）收集日期，标题和内容。我有日期和标题，但没有完整的文章。下面是我用来抓取日期和标题的代码。除了日期，标题外，我还想抓全文。问题答案：有可能的。您必须获取该文章的每个链接并将其拉出。我在下面添加了它，还整理了一下文章，因为有多余的空格，当您将它们全部合并在一起时，文本中没有空格。输出：
Python BeautifulSoup XML解析

问题内容：我编写了一个简单的脚本，用于使用BeautifulSoup模块解析XML聊天日志。标准的soup.prettify（）可以正常工作，只是聊天日志中有很多绒毛。您可以在下面看到脚本代码和我正在使用的一些XML输入文件：码测试XML输入我希望能够将其输出为以下格式或至少比纯XML更可读的格式：乔恩：嘿，怎么了？[10/31/10 @ 3：43p] 乔恩：收到了您的消息[10/31/
如何使用beautifulsoup和selenium在Python抓取中识别类名或id

我正在构建一个scraper代码，并且已经能够读取表和我想要的信息。问题在于下一个页面链接，我尝试使用类名和svg标记，但代码会随着类名值的更改而中断。这是该页面的链接翻页代码运行点击下一页的元素css的代码如下似乎当类名的值更改时，它会中断并更改要单击的元素，而我还没有找到一种方法在不更改元素的情况下重复，以便对具有相同结构的多个页面重复。谢啦
使用selenium和beautifulsoup进行网页抓取。。解析和选择按钮时出现问题

我正试图从以下网站“url=”上抓取内容https://angel.co/life-sciences' ". 该网站包含8000多个数据。从这个页面我需要像公司名称和链接，加入日期和追随者的信息。在此之前，我需要通过单击按钮对followers列进行排序。然后单击“更多隐藏”按钮加载更多信息。页面最多可点击20次（隐藏更多）内容，此后不会加载更多信息。但我只能通过排序来获取顶级追随者的信息。这里我
如何在Python中使用Selenium？

问题内容：如何设置Selenium与Python一起使用？我只想用Python编写/导出脚本，然后运行它们。是否有任何资源？我尝试使用谷歌搜索，但是发现的东西要么是指Selenium（RC）的过时版本，要么是Python的过时版本。问题答案：您是说Selenium WebDriver吗？… 先决条件：根据您的操作系统安装Python 使用以下命令安装并在您的代码中使用此模块您还可以根据
如何在python中使用Selenium Webdriver滚动网页？

问题内容：我目前正在使用Selenium Webdriver通过Facebook用户朋友页面进行解析，并从AJAX脚本中提取所有ID。但是我需要向下滚动才能得到所有的朋友。如何在Selenium中向下滚动。我正在使用python。问题答案：你可以使用其中Y是高度（在全高清显示器上为1080）。你也可以使用滚动到页面底部。如果你想滚动到无限加载的页面，例如社交网络页面，facebook

如何在python中使用Selenium和Beautifulsoup解析网站？

相关阅读

相关文章

相关问答

相关工具

相关文档