当前位置：首页 > 面试题库 >

如何抓取一个需要使用python和beautifulsoup登录的网站？

闾丘炫明

2023-03-14

问题内容：

如果我想抓取一个需要先使用密码登录的网站，我该如何使用beautifulsoup4库开始使用python抓取它？以下是我对不需要登录的网站的处理方式。

from bs4 import BeautifulSoup    
import urllib2 
url = urllib2.urlopen("http://www.python.org")    
content = url.read()    
soup = BeautifulSoup(content)

应该如何更改代码以适应登录？假设我要抓取的网站是一个需要登录的论坛。一个示例是http://forum.arduino.cc/index.php

问题答案：

您可以使用机械化：

import mechanize
from bs4 import BeautifulSoup
import urllib2 
import cookielib ## http.cookiejar in python3

cj = cookielib.CookieJar()
br = mechanize.Browser()
br.set_cookiejar(cj)
br.open("https://id.arduino.cc/auth/login/")

br.select_form(nr=0)
br.form['username'] = 'username'
br.form['password'] = 'password.'
br.submit()

print br.response().read()

或urllib-使用urllib2登录网站

类似资料：

如何抓取需要首先使用Python登录的网站

问题内容：首先，我认为值得一提，我知道有很多类似的问题，但是没有一个对我有用。我是Python，html和网络抓取工具的新手。我正在尝试从需要先登录的网站上抓取用户信息。在我的测试中，我以来自github的scraper我的电子邮件设置为例。主页是“ https://github.com/login ”，目标页面是“ https://github.com/settings/emails ” 这
对python抓取需要登录网站数据的方法详解

本文向大家介绍对python抓取需要登录网站数据的方法详解，包括了对python抓取需要登录网站数据的方法详解的使用技巧和注意事项，需要的朋友参考一下 scrapy.FormRequest login.py selenium登录获取cookie get_cookie_by_selenium.py 获取浏览器cookie(以Ubuntu的Firefox为例) get_cookie_by_firefo
如何从需要cookie登录的网站上抓取PHP中的网站内容？

问题内容：我的问题是，它不仅需要基本的cookie，而且还要求会话cookie和随机生成的ID。我认为这意味着我需要将Web浏览器模拟器与Cookie罐一起使用？我曾尝试使用Snoopy，Goutte和其他一些Web浏览器模拟器，但到目前为止，我还无法找到有关如何接收Cookie的教程。我有点绝望了！谁能给我一个如何在史努比或古特接受饼干的例子吗？提前致谢！问题答案：然后，我们应该能够
如何使用node.js抓取需要身份验证的网站？

问题内容：我遇到过许多教程，它们解释了如何使用node.js刮取不需要身份验证/登录的公共网站。有人可以解释如何抓取需要使用node.js登录的网站吗？问题答案：使用Mikeal的请求库，您需要启用cookie支持，如下所示：因此，您首先应该在该站点上（手动）创建一个用户名，并在向该站点发出POST请求时将用户名和密码作为参数传递。之后，服务器将使用Cookie进行响应，该请求将记住该C
如何在python中使用selenium和beautifulsoup从网站上抓取报纸文章？

问题内容：我正在尝试从报纸（纽约时间）收集日期，标题和内容。我有日期和标题，但没有完整的文章。下面是我用来抓取日期和标题的代码。除了日期，标题外，我还想抓全文。问题答案：有可能的。您必须获取该文章的每个链接并将其拉出。我在下面添加了它，还整理了一下文章，因为有多余的空格，当您将它们全部合并在一起时，文本中没有空格。输出：
如何为登录的网站执行web抓取

''我想为需要登录的网站执行网页抓取。我尝试了两种不同的代码方法。我仍然无法执行登录。“”#使用BeautifulSoup在Python中开发代码： #第一种方法是从bs4导入请求导入http。cookiejar导入urllib。请求导入urllib。作语法分析 'http://127.0.0.1/orangehrm4.3.1/symfony/web/index.php/auth/login' #

相关阅读

如何在python中使用selenium和beautifulsoup从网站上抓取报纸文章？如何使用python登录网站？Python-BeautifulSoup抓取可见网页文本使用python登录网站如何使用不变的网址抓取多个页面-Python

相关文章

用Python爬取美食网站3032个菜谱并分析 JIRA登录 MySQL登录和退出服务器 JMeter录制登录测试 Python变量的定义和使用

相关问答

如何使用beautifulsoup和selenium在Python抓取中识别类名或id 使用selenium python登录网站 Python网页抓取（Beautiful Soup、Selenium和PhantomJS）：只抓取整个页面的一部分 Python-网页抓取如何使用Selenium抓取多个URL的内容？Python

相关工具

BeautifulSoup 类似Twitter的登录框多线程页面抓取服务器获取网页的所有图片录音和播放

相关文档

React Bits 你需要了解的知识点 Python 精要教程静态网站构建手册之使用 Hugo 构建个人博客每周一个 Python 3 模块中文版 DIY 一个实用的 miniLAPP 服务器