问题：

Web刮刀的PyQuery代码

顾兴昌

2023-03-14

我对python有点陌生，但我正在尝试制作一个web scraper脚本，它可以在网站上下载所有图片。我正在使用requests和PyQuery，因为许多人在做了一些研究后推荐了它。这就是我现在所拥有的，我不知道该去哪里。

r = requests.get("some url")
images = pq(r.text)
for image in images.find("img"):

我知道我需要获取img的来源，但在找到img标签后如何做到这一点？此外，我查看了一些htmls的页面源，一些图片存储在他们的数据库中，因此src以“/”开头一些扩展“所以我想知道如何才能获得完整的url。

共有1个答案

宋望

2023-03-14

（蟒蛇3）

from pyquery import PyQuery as pq
import requests
from urllib.parse import urljoin

url = "..."
response = requests.get(url).text
for image in pq(response)("img") :
    imgurl = urljoin(url,image.get("src"))

为您辩护，pyquery文档似乎过时了。urllib负责将相对url合并为绝对url。

类似资料：

Selendroid作为web刮刀

我打算创建一个Android应用程序，它可以无头登录一个网站，然后在维护登录会话的同时从后续页面中删除一些内容。我第一次在一个普通的Java项目中使用HtmlUnit，它工作得很好。但后来发现HtmlUnit与Android不兼容。然后我通过向登录表单发送HTTP“POST”请求来尝试JSoup库。但由于JSoup不支持JavaScript，因此生成的页面无法完全加载。然后有人建议我看看Se
更新卷筒纸刮刀

嗨，我终于能够设置我的webscraper，并将数据导入到我的网页中：）但是我的网页在端口3001上运行，而网页刮刀在端口8080上运行，我有点困惑，我怎么能设置一个计时器来更新后台的刮刀？ Scraper.js 弗雷德里克
Wordpress产品数据刮刀/API

我想自动从其他网站获取产品数据，或者通过抓取它，或者通过使用cURL访问API。由于我们的网站使用Wordpress，我正在尝试制作一个插件。我现在尝试在插件的设置页面上获取字段，以填写网站名称、cURL的链接格式以及应该导入的产品ID。插件的设置页面上会有一个按钮，当再次单击时，该按钮会添加相同的字段。我试图使用一个对象类，因为我想使用多个网站。我在我们的网站上收到HTTP错误500，所以我认为
J汤reddit刮刀429错误

因此，我尝试使用jsoup来刮除图像的Reddit，但当我刮除某些子Reddit（如/r/wallpaper）时，我遇到了一个429错误，我想知道如何修复它。完全理解这段代码很糟糕，这是一个很普通的问题，但我对此完全陌生。无论如何：
PyQuery

PyQuery 让你使用 jQuery 的风格来遍历 XML 文档，它使用了 lxml 来处理 XML 乃至 HTML 文档。你可以直接从字符串、URL或者文件中加载文档： >>> from pyquery import PyQuery as pq>>> from lxml import etree>>> import urllib>>> d = pq("<html></html>")>>> d
js HTML5手机刮刮乐代码

本文向大家介绍js HTML5手机刮刮乐代码，包括了js HTML5手机刮刮乐代码的使用技巧和注意事项，需要的朋友参考一下手机刮刮乐HTML5代码, 使用原型prototype扩展了一个clearArc 清除圆内像素的功能，此功能未完成扇形清除功能，此外，在清除圆内的像素时，还有点瑕疵，右边和下边还不够圆滑，有明显的齿状。如果你找到修复方法请一定要告诉我哟。不过此清除方法用于刮刮乐已经完全满

Web刮刀的PyQuery代码

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档