当前位置: 首页 > 面试题库 >

什么是表层网页?什么是深层网页?

汲昊空
2023-05-12

在互联网中,网页按存在方式可以分为表层网页深层网页两类。


所谓的表层网页,指的是不需要提交表单,使用静态的链接就能够到达的静态页面;而深层网页则隐藏在表单后面,不能通过静态链接直接获取,是需要提交一定的关键词后才能够获取到的页面,深层网络爬虫(deep Web crawler)最重要的部分即为表单填写部分。


在互联网中,深层网页的数量往往要比表层网页的数量多很多,故而,我们需要想办法爬取深层网页。


深层网络爬虫的基本构成:URL列表、LVS列表(LVS指的是标签/数值集合,即填充表单的数据源)、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器。


深层网络爬虫的表单填写有两种类型:


  • 基于领域知识的表单填写(建立一个填写表单的关键词库,在需要的时候,根据语义分析选择对应的关键词进行填写);
  • 基于网页结构分析的表单填写(一般在领域知识有限的情况下使用,这种方式会根据网页结构进行分析,并自动地进行表单填写)。


 类似资料:
  • ●简单来讲,图层就是一幅透明的画布,用不同的符号绘制地点、出行路线、业务 范围等数据,一幅地图由一个或多个图层叠加而成。图层按业务数据的几何形状分为 三种:标注图层、线路图层、区域图层,不同形状的对象不能存储在同一个图层中。 1)标注图层:用标注来表达业务网点的分布,如连锁店位置,客户分布,户外广告位置,空间分布趋势等。 2)线路图层:用线路来表现导航线路、管道线路、关联关系等。 3)区域图层:用

  • 本文向大家介绍什么是浅层渲染?相关面试题,主要包含被问及什么是浅层渲染?时的应答技巧和注意事项,需要的朋友参考一下 当为 React 写单元测试时,浅层渲染(Shallow Renderer) 会变得十分有用。浅层渲染使你可以渲染 “单层深度” 的组件,并且对组件的 render 方法的返回值进行断言,不用担心子组件的行为,组件并没有实例化或被渲染。浅渲染并不需要 DOM。 http://reac

  • 我是Docker的新手,正在尝试准确理解Docker映像是什么。Docker映像的每个定义都使用术语“层”,但似乎没有定义层的含义。 从Docker官方文件: 我们已经看到Docker图像是只读模板,从中启动Docker容器。每个图像由一系列层组成。Docker利用union文件系统将这些层合并到单个图像中。Union文件系统允许透明地覆盖单独文件系统(称为分支)的文件和目录,形成单个连贯的文件系

  • 我对Docker是全新的,我正在努力理解Docker形象到底是什么。Docker图像的每个定义都使用术语“层”,但似乎没有定义层的含义。

  • 在本节中,我们将了解网站的真正含义。网站只是安装在设备或计算机上的应用程序。网站有两个主要应用程序,即Web服务器(例如,Apache)和数据库(例如,MySQL)。 Web服务器用于理解和执行Web应用程序。Web应用程序可以用Java,Python,PHP或任何其他编程语言编写。唯一的限制是Web服务器需要能够理解和执行Web应用程序。 数据库包含Web应用程序使用的数据。所有这些都存储在称为

  • 本文向大家介绍搜索baidu,会用到计算机网络中的什么层?每层是干什么的相关面试题,主要包含被问及搜索baidu,会用到计算机网络中的什么层?每层是干什么的时的应答技巧和注意事项,需要的朋友参考一下 参考回答: 浏览器中输入URL 浏览器要将URL解析为IP地址,解析域名就要用到DNS协议,首先主机会查询DNS的缓存,如果没有就给本地DNS发送查询请求。DNS查询分为两种方式,一种是递归查询,一种

  • 本文向大家介绍什么是数据链路层?,包括了什么是数据链路层?的使用技巧和注意事项,需要的朋友参考一下 数据链路层是OSI参考模型中的第二层。它表示在计算机传输设置中创建共享的传输介质并频繁传输数据帧。 它为发送方设备的物理层获得自然的项目流。数据的主要流是使用不同的技术生成的,例如电缆,DSL,无线,光纤等。 提供给网络层的服务  数据链路层支持到网络层的明确定义的接口。它可以通过保留多种服务来管理

  • 问题内容: Caffe具有图层类型。 例如,该层类型可以用作损耗层。 在其他情况下,它用作输入层。 这是什么层类型? 该层如何使用? 问题答案: Prune和Bharat的答案给出了一个层的总体目的:一个通用层,它是用python而不是c ++实现的。 我打算将此答案作为使用图层的教程。 图层教程 什么是层? 请查看Prune和Bharat的出色回答。 前提条件 为了使用图层,您需要使用flag编