当前位置: 首页 > 知识库问答 >
问题:

Python Beautifulsoup img标记解析

盛柏
2023-03-14

我正在使用beautifulsoup解析“www.youtube”中出现的所有img标签。com'

代码

import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen('http://www.youtube.com/')
soup = BeautifulSoup(page)
tags=soup.findAll('img')

但我并没有得到所有的img标签。获取img标记也无效。

解析后得到的img标签与页面源img标签不同。缺少一些属性。

我需要在youtube上获取所有视频img标签。通用域名格式

请帮帮忙

共有3个答案

华良才
2023-03-14

显式使用soup.findAll(name='img')对我有用,而且我似乎没有遗漏页面中的任何内容。

仇浩旷
2023-03-14

我也有类似的问题。我找不到所有图像。下面是一段代码,它将为您提供图像标记的任何属性值。

from BeautifulSoup import BeautifulSoup as BSHTML
import urllib2
page = urllib2.urlopen('http://www.youtube.com/')
soup = BSHTML(page)
images = soup.findAll('img')
for image in images:
    #print image source
    print image['src']
    #print alternate text
    print image['alt']
曾珂
2023-03-14

我在这里试试似乎很管用

import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen('http://www.youtube.com/')
soup = BeautifulSoup(page)
tags=soup.findAll('img')
print "\n".join(set(tag['src'] for tag in tags))

产生了这个在我看来没问题的东西

http://i1.ytimg.com/vi/D9Zg67r9q9g/market_thumb.jpg?v=723c8e
http://s.ytimg.com/yt/img/pixel-vfl3z5WfW.gif
//s.ytimg.com/yt/img/pixel-vfl3z5WfW.gif
/gen_204?a=fvhr&v=mha7pAOfqt4&nocache=1337083207.97
http://i3.ytimg.com/vi/fNs8mf2OdkU/market_thumb.jpg?v=4f85544b
http://i4.ytimg.com/vi/CkQFjyZCq4M/market_thumb.jpg?v=4f95762c
http://i3.ytimg.com/vi/fzD5gAecqdM/market_thumb.jpg?v=b0cabf
http://i3.ytimg.com/vi/2M3pb2_R2Ng/market_thumb.jpg?v=4f0d95fa
//i2.ytimg.com/vi/mha7pAOfqt4/hqdefault.jpg
 类似资料:
  • 我实际上正在用Java开发一个文本解析器,有人要求我通过用它解析HTML来增强它。解析器的目的是将被解析的文件分成另外三个文件,一个包含文件中包含的所有单词,一个包括所有句子,另一个包含所有问题。 *.txt部分工作得很好,但我在解析HTML时遇到了一个问题。 我创建了一个扩展名为*.txt的临时文件,并将其在我的文本解析器中传递,但是如果我传递一个带有HTML文件链接的URL,其格式如下所示:

  • 有关于OpenNLP中解析器标记含义的文档吗?我知道POS标记类型遵循树库约定,但不幸的是,我没有找到任何关于解析器标记的信息,例如“SBAR”等。 这个留档是存在于某个地方还是我必须自己弄清楚?

  • 问题内容: 我有一个HTML文档集合,我需要为其解析部分中 标记的内容。这些是我感兴趣的唯一HTML标记,即不需要在部分中解析任何内容。 我试图使用JDom提供的XPath支持来解析这些值。但是,这不能很好地解决,因为部分中的许多HTML都是无效的XML。 有人对我可能如何处理格式错误的HTML解析这些标记值有任何建议吗? 干杯,唐 问题答案: 您可能会使用Jericho HTML Parser

  • 我正在尝试解析

  • 我是学习android Java的初学者。我从Youtube上学习java android教程,我完全遵循视频中的编码,但在android Studio上我的编码显示“无法解析符号‘标签’”。我可以知道是什么问题吗?并希望得到在座各位大师的讲解。

  • 我很难让Thymeleaf渲染我的视频。下面的示例html: 我得到: 原因:org。xml。萨克斯。SAXParseException:与元素类型“video”关联的属性名“controls”后面必须跟“=”字符。 如何让Thymeleaf尊重属性? 谢谢