我试图抓取这个网站:https://www.senate.gov/general/contact_information/senators_cfm.cfm
我的代码:
import requests
from bs4 import BeautifulSoup
URL = 'https://www.senate.gov/general/contact_information/senators_cfm.cfm'
page = requests.get(URL)
soup = BeautifulSoup(page.content, 'html.parser')
print(soup)
问题是它实际上并没有到达网站。我在soup var中得到的HTML根本不是正确网页中的HTML。
我不知道从这里去哪里!任何和所有的帮助都将不胜感激。
使用python请求模块时出现重复的HTTP 503错误
试试看:
import requests
from bs4 import BeautifulSoup
URL = 'https://www.senate.gov/general/contact_information/senators_cfm.cfm'
page = requests.post(URL, headers=headers)
soup = BeautifulSoup(page.content, 'html.parser')
print(soup)
这对我很管用
headers = {
'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
}
r = requests.get(URL,headers=headers)
在此找到信息-https://towards data science . com/5-strategies-to-write-unblock-able-web-scrapers-in-python-5e 40 c 147 bdaf
我编写了一个脚本,使用美丽的汤和硒库来浏览Vivino网站。 在这个网站上,我想存储某款葡萄酒的评论信息。 我必须使用Selenium进行动态抓取,因为评论只能按网页中的“显示更多评论”按钮访问,该按钮在向下滚动到页面顶部后出现。 我仅为一种葡萄酒修改了代码,以便您可以看到,如果需要,需要多长时间: 我写的脚本执行以下步骤: > 使用特定的葡萄酒链接(即:https://www.vivino.co
我正在尝试使用Selenium在网站上自动加载“Show More”,然后想使用Beautifulsoup刮取内容。 我的代码正在运行,但没有给出期望的结果。我知道我做错了什么,但找不到它。对于Selenium:我的代码是单击“显示更多”按钮,但它不一致。有时它会点击5次,有时会点击10次。我希望它一直运行到最后一个“显示更多”。我不明白我做错了什么。对于Beautifulsoup:除了加载更多内
问题内容: 我正在尝试从Google搜索结果中提取链接。检查元素告诉我,我感兴趣的部分具有“ class = r”。第一个结果如下所示: 要提取“ href”,我要做: 但是我意外地得到: 我想要的地方: 属性“ ping”似乎使它感到困惑。有任何想法吗? 问题答案: 发生了什么? 如果您打印响应内容(即),则会看到您得到的HTML完全不同。页面源和响应内容不匹配。 因为内容是动态加载的,所以 不
我试图使用美丽的汤抓取newegg的产品名称、描述、价格和图像。我有以下bs4.element.标签类型,我想从标签中提取“src”链接。以下是我的标签: 我怎样才能提取 从这个标签?我试过了 但我收到了Keyerror。
考虑一下这段代码: 它只打印“divTag” 更新: 我基本上想在'a'标签中提取“字符串”值。
我试图从一个网站上为我的项目收集数据。但是问题是我没有在我的输出中得到我在我的开发者工具栏屏幕中看到的标签。以下是我想从其中抓取数据的DOM的快照: 我能够获得类为“bigContainer”的div标记,但是我不能在这个标记中刮取标记。例如,如果我想得到网格项标记,我得到了一个空列表,这意味着它表明没有这样的标记。为什么会这样?请帮忙!!