import requests #获取网页源码
from lxml import etree # 解析网页源码
import os #os=operation system = 操作系统 查看cpu 内存 硬盘...
# 1. 获取网页源码
url = "http://www.ivsky.com/tupian/"
content = requests.get(url).text #.text表示源码
print(content)
# 2. 使用etree解析源码,使用xpath提取数据 //img/@src
root = etree.HTML(content)
big_category = root.xpath("//ul[@class = 'tpmenu']/li/a/text()")
print(big_category)
print(len(big_category))
#获取小分类的大分类的网址的href
big_category_url = root.xpath("//ul[@class = 'tpmenu']/li/a/@href") #获取大分类的网址(不一样的后半部分)
for i in range(len(big_category_url)):
b_name = big_category[i] #大分类文件夹的名字
url = big_category_url[i]
url = 'http://www.ivsky.com'+url #完整的大分类网址
print(url)
content = requests.get(url).text
root = etree.HTML(content) #解析大分类网址中的小分类
small_category = root.xpath("//div[@class='sline']/div/a/text()")
# small_category_url = root.xpath("//div[@class='sline']/div/a/@href") 在标签之间是text(),在标签内是@--
print(small_category)
for j in range(len(small_category)):
s_name = small_category[j]
os.makedirs(b_name+s_name, exist_ok=True) #创建大分类文件,并在其中创建对应小文件