02 网页基本构成和抓取原理

优质

小牛编辑

145浏览

2023-12-01

网页，是一种可以被浏览器等客户端解析的一种文件。与我们平常遇到的文件的区别是：网页是根植于互联网的。也就是说我们通过浏览器浏览的网页文件大部分是不在本地的，它有可能在世界上的任何一台连接网络的计算机上面。而且，通过网络的超链接，我们可以浏览世界任意角落的网页文件，这就是我们平常说的网上冲浪，足不出户，就能融入整个世界。

爬虫抓取的是数据其实就是网页上的内容，具体的抓取原理我们在这个小节会说到，下面我们先来看下网站的概念：

1. 网站的概念

在具体讲解网页的构成之前。我们需要先了解一下网站的概念。

网站，是对外提供服务的多个网页构成的集合。它主要分为静态网站和动态网站。

1.1 静态网站

静态网站指的是网站下所有的页面都是使用 HTML 构成的网站。所谓静态，不是指网页是静止不动的，网页中也可以有动画，视频等信息。这里的静态，指的是无法与服务端进行互动。只是被动的解析显示服务器端响应回来的信息。

静态网站的优点：

容易被搜索引擎收录，方便 SEO 优化。
内容独立，不依赖于数据库。

静态网站的缺点：

维护成本比较大，大部分内容需要人工手工更新。
页面无法互动，用户体验不佳。

1.2 动态网站

动态网站相对于静态网站，它可以提供更多交互上的体验。比如，用户的注册登录，实时推荐等功能。动态网站里面不仅包含了静态的 HTML 文件，也会包含服务器端的脚本，比如 Jsp，Asp 等。

动态网站的优点：

用户体验良好，可以实现更多个性化的设置。
服务器可以对客户端进行更多的互动，方便服务器对数据的管理和分析。

动态网站的缺点：

需要与数据库进行处理，访问速度大大降低。
对于搜索引擎不友好。

不管是静态网站里面的网页，还是动态网站里面的网页，他们都有一些网页共同的基本内容。下面我们来看下网页的三大基本元素：

2. 网页的三大基本元素：

后面的章节，我们会对网页的三大基本元素进行具体的介绍，这里只是简单的阐述一些基本的概念和用途。

2.1 HTML

HTML 是一种标记语言。标记语言并不是编程语言，它无法使用逻辑编程的方式进行编程。它只是约定了一种文档的展现方式。通过约定不同的标签所代表的不同含义，从而在浏览器端渲染出丰富多彩的网页。主要包含头部和主体两大部分。HTML 主要负责页面的结构。

2.2 CSS

级联样式表，有时候也叫做风格样式表。需要配合 HTML 来使用，从而提供丰富的渲染效果。

2.3 Javascript

是一种脚本语言，广泛的用于前端的逻辑实现。通过 javascript 可以实现许多定制的效果，是前端使用的最广泛的编程语言。

综上所述，HTML，CSS，Javascript 共同构成了网页的丰富的样式。三者缺一不可，没有 HTML，CSS， Javascript 就是无源之水，毫无意思；没有 CSS，网页就失去了色彩和样式，最终会使得 HTML千篇一律；没有 Javascript，我们就无法看到动态的网页，只是一潭死水。

3. 爬虫抓取原理

爬虫爬取的数据其实就是网页上面的内容，我们需要通过特定的工具对网页进行分析，比如说 Beautiful Soup。然后提取出 HTML 中的特定标签下的数据。然后，将数据进行持久化保存，方便日后的数据的分析。

简单点讲，我们使用爬虫，最根本的目的是爬取网页中对我们有价值的信息和数据。所以，我们大部分爬取的工作，都是在筛选我们有用的信息，并剔除掉无用的信息。这就是爬虫核心所在。

4. 小结

通过这一小节，我们认识了网页的基本元素，在我们使用的爬虫的过程中，随时随地都需要分析网页的构成要素，因此，熟练的掌握的网页的基本元素的构成，对于我们后面进行网页的分析很有帮助。