Python Beautifulsoup img标记解析

盛柏

2023-03-14

我正在使用beautifulsoup解析“www.youtube”中出现的所有img标签。com'

import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen('http://www.youtube.com/')
soup = BeautifulSoup(page)
tags=soup.findAll('img')

但我并没有得到所有的img标签。获取img标记也无效。

解析后得到的img标签与页面源img标签不同。缺少一些属性。

我需要在youtube上获取所有视频img标签。通用域名格式

请帮帮忙

共有3个答案

华良才

2023-03-14

显式使用soup.findAll（name='img'）对我有用，而且我似乎没有遗漏页面中的任何内容。

仇浩旷

2023-03-14

我也有类似的问题。我找不到所有图像。下面是一段代码，它将为您提供图像标记的任何属性值。

from BeautifulSoup import BeautifulSoup as BSHTML
import urllib2
page = urllib2.urlopen('http://www.youtube.com/')
soup = BSHTML(page)
images = soup.findAll('img')
for image in images:
    #print image source
    print image['src']
    #print alternate text
    print image['alt']

曾珂

2023-03-14

我在这里试试似乎很管用

import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen('http://www.youtube.com/')
soup = BeautifulSoup(page)
tags=soup.findAll('img')
print "\n".join(set(tag['src'] for tag in tags))

产生了这个在我看来没问题的东西

http://i1.ytimg.com/vi/D9Zg67r9q9g/market_thumb.jpg?v=723c8e
http://s.ytimg.com/yt/img/pixel-vfl3z5WfW.gif
//s.ytimg.com/yt/img/pixel-vfl3z5WfW.gif
/gen_204?a=fvhr&v=mha7pAOfqt4&nocache=1337083207.97
http://i3.ytimg.com/vi/fNs8mf2OdkU/market_thumb.jpg?v=4f85544b
http://i4.ytimg.com/vi/CkQFjyZCq4M/market_thumb.jpg?v=4f95762c
http://i3.ytimg.com/vi/fzD5gAecqdM/market_thumb.jpg?v=b0cabf
http://i3.ytimg.com/vi/2M3pb2_R2Ng/market_thumb.jpg?v=4f0d95fa
//i2.ytimg.com/vi/mha7pAOfqt4/hqdefault.jpg

类似资料：

JSoup-逐标记解析HTML标记

我实际上正在用Java开发一个文本解析器，有人要求我通过用它解析HTML来增强它。解析器的目的是将被解析的文件分成另外三个文件，一个包含文件中包含的所有单词，一个包括所有句子，另一个包含所有问题。 *.txt部分工作得很好，但我在解析HTML时遇到了一个问题。我创建了一个扩展名为*.txt的临时文件，并将其在我的文本解析器中传递，但是如果我传递一个带有HTML文件链接的URL，其格式如下所示：
OpenNLP的解析器标记

有关于OpenNLP中解析器标记含义的文档吗？我知道POS标记类型遵循树库约定，但不幸的是，我没有找到任何关于解析器标记的信息，例如“SBAR”等。这个留档是存在于某个地方还是我必须自己弄清楚？
解析Java中的元标记

问题内容：我有一个HTML文档集合，我需要为其解析部分中标记的内容。这些是我感兴趣的唯一HTML标记，即不需要在部分中解析任何内容。我试图使用JDom提供的XPath支持来解析这些值。但是，这不能很好地解决，因为部分中的许多HTML都是无效的XML。有人对我可能如何处理格式错误的HTML解析这些标记值有任何建议吗？干杯，唐问题答案：您可能会使用Jericho HTML Parser
使用 Jsoup 解析 dl 标记

我正在尝试解析
无法解析符号“标记”

我是学习android Java的初学者。我从Youtube上学习java android教程，我完全遵循视频中的编码，但在android Studio上我的编码显示“无法解析符号‘标签’”。我可以知道是什么问题吗？并希望得到在座各位大师的讲解。
Thymeleaf Spring解析HTML5布尔标记

我很难让Thymeleaf渲染我的视频。下面的示例html：我得到：原因：org。xml。萨克斯。SAXParseException:与元素类型“video”关联的属性名“controls”后面必须跟“=”字符。如何让Thymeleaf尊重属性？谢谢

Python Beautifulsoup img标记解析

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档