获取网页分类下的所有图片

司马德水
2023-12-01
import requests  #获取网页源码
from lxml  import etree  # 解析网页源码
import os  #os=operation system = 操作系统 查看cpu 内存 硬盘...

# 1. 获取网页源码
url = "http://www.ivsky.com/tupian/"
content = requests.get(url).text #.text表示源码
print(content)

# 2. 使用etree解析源码,使用xpath提取数据   //img/@src
root = etree.HTML(content)
big_category = root.xpath("//ul[@class = 'tpmenu']/li/a/text()") 
print(big_category)
print(len(big_category))

#获取小分类的大分类的网址的href
big_category_url = root.xpath("//ul[@class = 'tpmenu']/li/a/@href") #获取大分类的网址(不一样的后半部分)
for i in range(len(big_category_url)):
    b_name = big_category[i]                                        #大分类文件夹的名字

    url = big_category_url[i]
    url = 'http://www.ivsky.com'+url                                #完整的大分类网址
    print(url)
    content = requests.get(url).text
    root = etree.HTML(content)                                      #解析大分类网址中的小分类
    small_category = root.xpath("//div[@class='sline']/div/a/text()")  
#   small_category_url = root.xpath("//div[@class='sline']/div/a/@href")  在标签之间是text(),在标签内是@--
    print(small_category)

    for j in range(len(small_category)):
        s_name = small_category[j]
        os.makedirs(b_name+s_name, exist_ok=True)                   #创建大分类文件,并在其中创建对应小文件
获取网页分类下的所有图片

相关阅读

相关文章

相关问答

相关文档