使用python请求登录网站

强金鑫

2023-03-14

问题内容：

我正在尝试使用抓取数据的请求登录https://www.voxbeam.com/login。我是python的初学者，我大部分时候都做过教程，并使用BeautifulSoup自行完成了一些网页抓取工作。

查看HTML：

<form id="loginForm" action="https://www.voxbeam.com//login" method="post" autocomplete="off">

<input name="userName" id="userName" class="text auto_focus" placeholder="Username" autocomplete="off" type="text">

<input name="password" id="password" class="password" placeholder="Password" autocomplete="off" type="password">

<input id="challenge" name="challenge" value="78ed64f09c5bcf53ead08d967482bfac" type="hidden">

<input id="hash" name="hash" type="hidden">

我了解我应该使用 post 方法，并发送 userName 和 password

我正在尝试：

import requests
import webbrowser

url = "https://www.voxbeam.com/login"
login = {'userName': 'xxxxxxxxx',
         'password': 'yyyyyyyyy'}

print("Original URL:", url)

r = requests.post(url, data=login)

print("\nNew URL", r.url)
print("Status Code:", r.status_code)
print("History:", r.history)

print("\nRedirection:")
for i in r.history:
    print(i.status_code, i.url)

# Open r in the browser to check if I logged in
new = 2  # open in a new tab, if possible
webbrowser.open(r.url, new=new)

我期待，在成功登录进去 [R 的URL到仪表板，这样我就可以开始刮的数据，我需要。

当使用身份验证信息代替xxxxxx和yyyyyy运行代码时，得到以下输出：

Original URL: https://www.voxbeam.com/login

New URL https://www.voxbeam.com/login
Status Code: 200
History: []

Redirection:

Process finished with exit code 0

我在浏览器中通过www.voxbeam.com/login获得了一个新标签

代码有问题吗？我在HTML中缺少什么吗？可以期望在r中获得仪表板URL，或者可以重定向并尝试在浏览器选项卡中打开URL以直观地查看响应，还是可以用其他方式处理？

我在这里读很多类似的问题了几天，但似乎每一个网站的认证过程是一个有点不同，我查http://docs.python-
requests.org/en/latest/user/authentication/
这描述了其他方法，但是我没有在HTML中找到任何建议我应该使用其中一种而不是
发布的内容

我也尝试过

r = requests.get(url, auth=('xxxxxxxx', 'yyyyyyyy'))

但它似乎也不起作用。

问题答案：

如上所述，您应该发送表单所有字段的值。这些可以在浏览器的Web检查器中找到。此表单发送2个附加的隐藏值：

url = "https://www.voxbeam.com//login"
data = {'userName':'xxxxxxxxx','password':'yyyyyyyyy','challenge':'zzzzzzzzz','hash':''}  
# note that in email have encoded '@' like uuuuuuu%40gmail.com

session = requests.Session()
r = session.post(url, headers=headers, data=data)

而且，许多站点都可以保护机器人免受诸如隐藏的表单字段，js，发送编码值等机器人的攻击。作为变体，您可以：

1）使用手动登录的Cookie：

url = "https://www.voxbeam.com"
headers = {'user-agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36"}
cookies = {'PHPSESSID':'zzzzzzzzzzzzzzz', 'loggedIn':'yes'}

s = requests.Session()
r = s.post(url, headers=headers, cookies=cookies)

2）使用模块硒：

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

url = "https://www.voxbeam.com//login"
driver = webdriver.Firefox()
driver.get(url)

u = driver.find_element_by_name('userName')
u.send_keys('xxxxxxxxx')
p = driver.find_element_by_name('password')
p.send_keys('yyyyyyyyy')
p.send_keys(Keys.RETURN)

使用python请求登录网站

相关阅读

相关文章

相关问答

相关工具

相关文档