首页
互助圈
新手教程
进阶之路
算法原理
架构设计
JAVA进阶
C/C++进阶
Python进阶
JavaScript
数据库
大数据
消息服务
源码解读
JAVA源码
Spring源码
数据库
消息服务
Dubbo源码
面试指南
大厂专栏
面试技巧
面试经验
面试题库
开发资料
文档资料
工具软件
电子书籍
小牛导航
在线工具
登录
目录
页面解析和数据提取
结构化的数据处理
非结构化的数据处理
当前位置:
首页
>
文档资料
>
爬虫课件
>
2、数据提取方法
优质
小牛编辑
134浏览
2023-12-01
页面解析和数据提取
一般来讲对我们而言,爬虫需要抓取的是某个网站或者某个应用的内容,提取有用的数据。响应内容一般分为两种,非结构化的数据 和 结构化的数据。
结构化数据:先有结构、再有数据
非结构化数据:先有数据,再有结构,
不同类型的数据,我们需要采用不同的方式来处理。
结构化的数据处理
HTML 文件
正则表达式
XPath
CSS选择器
JSON 文件
JsonPath
JSON 模块转化成Python类型进行操作
XML 文件
lxml模块 模块转化成Python类型进行操作
XPath
CSS选择器
正则表达式
非结构化的数据处理
普通文本文件(如提取电话号码、邮箱地址等)
正则表达式
JavaScript 文件、CSS 文件(提取特定值等)
正则表达式
二进制文件(图片、音乐、视频等)
无法提取,直接保存指定格式的磁盘文件
免责声明:
以上内容版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。感谢每一位辛勤著写的作者,感谢每一位的分享。