python爬取图片链接标签的src属性值_python爬取图片遇见src乱码： data:image/png;base64...

左恺

2023-12-01

python爬取图片遇见src乱码： data:image/png;base64

向爬取自己喜欢的图片，但是在爬取下来的代码当中图片的src会出现乱码的情况：data:image/png;base64。搞了我好长时间，试过伪装headers，也试过通过修改网页js的内容来让img的src显示出来，也试过修改div的display属性，但是全部都没用，最后了解了才知道，这是Data URI scheme。

一：Data URI scheme：

目的是将一些小的数据，直接嵌入到网页中，从而不用再从外部文件载入。比如上面那串字符，其实是一张小图片，将这些字符复制黏贴到火狐的地址栏中并转到，就能看到它了，一张1X36的白灰png图片

数据分类：data表示取得数据的协定名称，image/png 是数据类型名称，base64 是数据的编码方法，逗号后面就是这个image/png文件base64编码后的数据

这样写的好处(对我这种萌新来说简直灾难)：图像文件的内容直接写在了HTML 文件中，节省了一个HTTP 请求。

二：使用python爬取解决的方法

解决思路：

它就是普通的属性值。使用你的能够解析 html 的解析器，找到 image element，取得它的 src 属性值，将base64 格式的字符串转为 byte[ ]，然后放到 MemoryStream 中供 Image 控件读取，画出图片。(如果只是输出，得到 byte[ ] 数据结构即可)

举例：

string txt = @"data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAIQAAAARCAMAAAArMfRlAAAABGdBTUEAALGPC/xhBQAAACBjSFJNAAB6J";

var tmpArr= txt.Split(',');

byte[] bytes= Convert.FromBase64String(tmpArr[1]);

using (MemoryStream ms=new MemoryStream(bytes))

{

ms.Write(bytes, 0, bytes.Length);

var img=Image.FromStream(ms, true);

img.Save("demo.png");

}

爬取图片的时候，使用python中的bs64来编码Data URI：

#使用BeautifulSoup来获取对应的标签的属性值:使用点get，里面再加一个属性值的字符串就好了，ok

strings=str(bs.find(name="img",attrs={"class":"comicimg"}).get('src'))#解码bs64格式的Data URI

'''1.pip导入base64的包,这个不用pip下载，pycharm自带

2.将src的前面编码方式和后面的码分离出来，两者使用逗号相连，而且只有一个

3.使用b64decode编码器编译，并储存到字符节数组data里面

4.将其字符集写入文件当中，就会生成所需要的文件(为什么导出来的图片是白板？？)'''head1,encode=strings.split(',',1)

data=b64decode(encode)

with open("image_src.png","wb") as f:

f.write(data)

f.close()

注意：本人暂时还没有成功。。。。。。待续。。。

python爬取图片链接标签的src属性值_python爬取图片遇见src乱码： data:image/png;base64...

相关阅读

相关文章

相关问答

相关文档