如何在beautifulsoup中刮取image src

储国发

2023-03-14

我正在尝试在这段代码中获取image-src：

<img alt='Original Xiaomi Redmi Note 5 4GB RAM 64GB ROM Snapdragon S636 Octa Core Mobile Phone MIUI9 5.99" 2160*1080 4000mAh 12.0+5.0MP(China)' class="picCore" id="limage_32856997152" image-src="//ae01.alicdn.com/kf/HTB1WDJZbE_rK1Rjy0Fcq6zEvVXaS/Original-Xiaomi-Redmi-Note-5-4GB-RAM-64GB-ROM-Snapdragon-S636-Octa-Core-Mobile-Phone-MIUI9.jpg_220x220xz.jpg" itemprop="image"/>

我尝试了此代码，但不起作用：

图像=汤。查找（“img”）。get（'image-src'）

通常我使用get（'src'），它可以工作，但问题是：我需要使用image-src，但它不工作。

共有3个答案

谢阳成

2023-03-14

如果id是静态的，您可以使用css id选择器来选择元素，然后使用子集来获取img-src属性

from bs4 import BeautifulSoup as bs

html = '''
<img alt='Original Xiaomi Redmi Note 5 4GB RAM 64GB ROM Snapdragon S636 Octa Core Mobile Phone MIUI9 5.99" 2160*1080 4000mAh 12.0+5.0MP(China)' class="picCore" id="limage_32856997152" image-src="//ae01.alicdn.com/kf/HTB1WDJZbE_rK1Rjy0Fcq6zEvVXaS/Original-Xiaomi-Redmi-Note-5-4GB-RAM-64GB-ROM-Snapdragon-S636-Octa-Core-Mobile-Phone-MIUI9.jpg_220x220xz.jpg" itemprop="image"/>
'''
soup = bs(html, 'lxml')
print(soup.select_one('#limage_32856997152')['image-src'])

如果id不是静态的，并且可以有多个目标，那么您可能希望使用结合了属性的类选择器

srcs = [ img['image-src'] for img in soup.select('.picCore[image-src]')]
print(srcs)

任何图像src，只需使用属性选择器

srcs = [img['image-src'] for img in soup.select('[image-src]')]

曾新

2023-03-14

您可以通过将标签视为字典来访问标签的属性。您可以直接以. attrs的形式访问该字典

soup.find('img').attrs['image-src']

柳项明

2023-03-14

查看此文档，我找到了适用于这种情况的find_all方法：

这对我有用：

for link in soup.find_all('img'):
    print(link.get('image-src'))

这是我的完整代码：

from bs4 import BeautifulSoup

html_doc = """
<img alt='Original Xiaomi Redmi Note 5 4GB RAM 64GB ROM Snapdragon S636 Octa Core Mobile Phone MIUI9 5.99" 2160*1080 4000mAh 12.0+5.0MP(China)' class="picCore" id="limage_32856997152" image-src="//ae01.alicdn.com/kf/HTB1WDJZbE_rK1Rjy0Fcq6zEvVXaS/Original-Xiaomi-Redmi-Note-5-4GB-RAM-64GB-ROM-Snapdragon-S636-Octa-Core-Mobile-Phone-MIUI9.jpg_220x220xz.jpg" itemprop="image"/>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

for link in soup.find_all('img'):
    print(link.get('image-src'))

结果是：

//ae01.alicdn.com/kf/HTB1WDJZbE_rK1Rjy0Fcq6zEvVXaS/Original-Xiaomi-Redmi-Note-5-4GB-RAM-64GB-ROM-Snapdragon-S636-Octa-Core-Mobile-Phone-MIUI9.jpg_220x220xz.jpg

类似资料：

用Beautifulsoup刮iframe

嗨，我想刮与美丽的汤，但通常iframe src应该是一个html链接，这次我遇到一个wordpress URL，基本上是文件夹结构，导致PHP文件。我在想有没有什么办法可以把那个文件里的桌子刮开？当我检查Chrome中的元素时，表DIV标记存在，然而，当我用BeautifulSoup加载链接时，iframe中的内容就会消失（表）。请帮忙
使用beautifulsoup从span标记中刮取数据

我正在尝试刮网页，在那里我需要解码整个表到一个数据帧。我正为此使用漂亮的汤。在某些标记中，有一些标记没有任何文本。但这些值会显示在网页上的特定span标记中。下面的代码对应于该网页, 但是，这个标记中显示的值是。我试着删掉它，但我收到的是空短信。如何刮这个价值使用美丽的汤。 URL：https://en.tutiempo.net/climate/ws-432950.html 下面给出了我的用于
使用beautifulSoup，Python在h3和div标签中刮取文本

问题内容：我没有使用python，BeautifulSoup，Selenium等的经验，但是我很想从网站上抓取数据并将其存储为csv文件。我需要的单个数据样本编码如下（一行数据）。我需要的输出是我发现这些数据没有ID或类，但仍以通用文本形式出现在网站中。为此，我分别尝试使用BeautifulSoup和Python Selenium，在这两种方法中，我都陷入了无法提取的麻烦，因为我没有看到任何
（Python 3，BeautifulSoup 4）-在Div中进行刮页分页

我可以浏览此网站的第一页： http://ratings.food.gov.uk/enhanced-search/en-GB/^/伦敦/相关性/0/^/^/0/1/10 但我正试图通过使用网站分页中的“下一步”按钮来刮除网站上的所有其他页面。我单击了Next按钮，可以看到第2页的参数从0/1/10更改为0/2/10，以此类推。我已经看了分页代码，我可以看到分页在一个Div中问题是，我仅使用以
用BeautifulSoup或Pandas刮表数据

我对使用python有点陌生，我接到了一个任务，需要从表中抓取数据。我也不太懂html。我以前从来没有这样做过，花了几天时间研究各种刮桌子的方法。不幸的是，所有的例子都是一个看起来比我所处理的更简单的网页布局。我尝试了很多不同的方法，但没有一种方法允许我选择所需的表数据。下面网页底部的“每日水位”选项卡下的表怎么刮？ url=https://apps.wrd.state.or.us/apps/g
BeautifulSoup刮.文本属性问题

我有下面的代码来刮一个页面，https://www.hotukdeals.com 由于某种原因，这种方法起作用，在循环中刮取交易的价格一定的次数，然后停止工作。程序输出：从输出中可以看到，在前四行之后，属性为空，但元素中有文本。有人知道这事吗？有什么想法或解决办法吗？

如何在beautifulsoup中刮取image src

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档