当前位置: 首页 > 知识库问答 >
问题:

前端 - 请问网站分页内容怎么采集?

鱼安然
2023-05-31

采集目标URL链接:/xinlizixun/list4-5.html
怎么采集分页下文章内容,比如我只输入分页链接,就把当前页面分页下的内容文章都逐个采集?

共有2个答案

师向文
2023-05-31

for循环每个页面,然后使用正则或者xpath语法对页面内容进行提取,然后写入文件或者保存到数据库里面。

左丘子平
2023-05-31

采集列表里面有所有任务,key 可以就是 url ,做完一个就记录未已完成。

这样只需要去找所有未开始的任务即可。每次采集完会吧所有 href 都收集起来

符合特定规则的放入任务表,这样就可以爬取所有内容了

 类似资料:
  • 写网站时怎么命名class?

  • 网站的内容由网页构成。通常,当用户访问一个网站时,实际打开的是网站服务器上某个文件目录下的某个网页文件。 当我们在浏览器地址栏里 输入一串URL时, 浏览器就通过查找这串URL对应的“地址”, 找到网页文件,并在浏览器中渲染呈现。 URL的结构说明 URL的结构构成: 传输协议 + 服务器hostname(有时需要端口号) + path(文件路径) + 查询参数 例如,http://zh.wiki

  • 渲染并控制网页 进程: 主进程​ webContents是个专门负责渲染和控制页面的EventEmitter,它也是BrowserWindow 对象的属性, 访问webContents对象的示例: 1 const {BrowserWindow} = require('electron') 2 ​ 3 let win = new BrowserWindow({width: 800, height:

  • 打开网址报错403 Forbidden,请问怎么解决?防火墙和代理都已经关闭

  • vue2中路由怎么301到新的网站 我有个关于(about)页面,我是写在vue路由里的,当我点击关于按钮时直接跳的vue路由里的about,我现在要把about页面放到了别的项目下,想实现当我点击关于按钮时,跳转另一个项目的about,如果我直接访问另一个项目/about,这样是能跳转,但会造成用户收藏的连接报错问题,和出现seo问题 我想到了在nginx里做301 但是nginx和vuerou