当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

depth-crawler-python

三级页面定向爬取

授权协议 MIT

开发语言 Python

所属分类应用工具、网络爬虫

软件类型开源软件

地区不详

投递者洪高扬

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

depth-crawler 是一个三级页面定向爬取工具。

功能

1.在python中运用scrapy框架定向爬取至三级页面，保存html页面内容与链接为xlsx表格

2.将xlsx表格内容存至elasticsearch中

3.elasticsearch查询的时候运用ik分词

4.在python中运用flask框架写前端页面呈现搜索页面和搜索的信息内容

5.查询结果高亮显示

安装说明

首先安装python用于编辑代码，然后安装jdk环境用于后续安装elasticsearch,elasticsearch数据库对爬取下来的数据进行处理。npm 是随同 node.js 一起安装的包管理工具，用于node.js插件管理(包括安装、卸载、管理依赖等)，elasticsearch-head是elasticsearch用于监控 Elasticsearch 状态的客户端插件，包括数据可视化、执行增删改查操作等，使用JavaScript开发的依赖于Node.js

1.python(3.8.10)打开cmd输入python,有版本号说明安装成功

2.jdk(1.8.0_241)注意环境变量的配置，打开cmd输入java -version,有版本号说明安装成

3.elasticsearch(6.8.21)找到elasticsearch.bat启动成功后，在浏览器中输入(localhost:9200)出现如图便安装成

3.1.nodejs(v16.17.0）找到elasticsearch.bat启动成功后，在浏览器中输入(localhost:9200)出现如图便安装成功

3.2.elasticsearch-head(6.8.21)与elasticsearch版本一致(head插件的安装和基本使用)通过elasticsearch-head-master打开命令行，输入(grunt server)

4.扩展库部分 ——pip install 库名==版本号（可以在cmd中输入pip list 查看所有的版本号）

4.1.flask(2.1.2)——使用 Python用于编写web应用的框架

在cmd中输入(pip install flask)，指定版本号的话输入(pip install flask==2.1.2)

4.2.scrapy(2.6.1)——用于爬取网站数据、提取结构性数据

4.3.elasticsearch(7.15.2)——用于搜索信息

4.4.pandas(1.4.1)——用于处理表格数据

4.5.openpyxl(3.0.9)——可用于读写excel表格

4.6.XlsxWriter(3.0.3)——用于创建Excel XLSX文件

启动流程

elasticsearch:

1.在"elasticsearch"的文件夹下打开“bin文件夹然后双击"elasticsearch.bat"开始运行

2.在"elasticsearch"的文件夹下打开“head"文件夹下的"elasticsearch-head-master"复制路径(D:\\ES\\elasticsearch-6.8.21\\head\\elasticsearch-head-master)打开cmd进入路径下输入命令(grunt server)

效果浏览

elasticsearch:

1.打开浏览器输入(http://localhost:9200/)访问端口

2.打开浏览器输入(http://localhost:9100/)可看到elasticsearch数据库中信息

前端 :

1.运行(route.py)在浏览器中访问第一个路由(http://127.0.0.1:5000/search)可看到搜索页面

2.在搜索框中输入搜索内容(如：纺织)可出现相关信息，在最后也有分页效果

3.点击标题和内容部分会返回原网址

4.点击快照会进去html页面

5.每条内容回根据点击次数提高排名，在浏览器中输入(http://127.0.0.1:5000/restore)排名恢复原样

使用案例

A Basic Website Crawler, in Python, in 12 Lines of Code. « Null Byte

A Basic Website Crawler, in Python, in 12 Lines of Code. « Null Byte A Basic Website Crawler, in Python, in 12 Lines of Code. « Null Byte Step 1 Layout the logic. OK, as far as crawlers (web spiders)
Python学习笔记--Python 爬虫入门 -18-4 Scrapy命令篇

(proxy_ip_project) C:\Users\user>scrapy --help Scrapy 1.5.0 - no active project Usage: scrapy <command> [options] [args] Available commands: bench Run quick benchmark test fetch
python多线程爬虫实例-python多线程爬虫实例讲解

Python作为一门强大的脚本语言，我们经常使用python来写爬虫程序，简单的爬虫会写，可是用python写多线程网页爬虫，应该如何写呢？一般来说，使用线程有两种模式,一种是创建线程要执行的函数,把这个函数传递进Thread对象里，让它来执行.另一种是直接从Thread继承，创建一个新的class，把线程执行的代码放到这个新的class里。实现python多线程（http://www.maiz
python多线程爬虫实例-python支持多线程的爬虫实例

python是支持多线程的, 主要是通过thread和threading这两个模块来实现的，本文主要给大家分享python实现多线程网页爬虫一般来说，使用线程有两种模式, 一种是创建线程要执行的函数, 把这个函数传递进Thread对象里，让它来执行. 另一种是直接从Thread继承，创建一个新的class，把线程执行的代码放到这个新的class里。实现多线程网页爬虫，采用了多线程和锁机制，实现
Python-爬虫入门(笔记)

Python Web Crawl requests 库 Request 对象 Response 对象的属性获取网页内容-代码示例 Requests 库的异常通用代码框架 HTTP requests.request 网络爬虫带来的问题网页爬虫的尺寸网络爬虫的限制 Robots 协议网络爬虫示例爬取一个京东页面爬取一个亚马逊页面搜索引擎关键词提交网络图片的爬取 IP地址归属地的自动查
Python Crawler

__author__ = 'chenyang' #!/usr/bin/env python """Web Crawler/Spider This module implements a web crawler. This is very _basic_ only and needs to be extended to do anything usefull with the traverse
python scrapy实践-爬取豆瓣读书

scrapy简介按scrapy官网的介绍来说，scrapy是一种快速的高级web crawling和web scraping，用于对网站进行爬取并从其页面提取结构化数据的框架，也就是爬虫。它可以用于数据挖掘、数据监控和自动化测试。初尝scrapy 安装scrapy 在有python环境下，可以直接使用pip安装。 pip install scrapy 安装完成后，直接在命令中输入scrapy
python爬虫-->获取数据

在Python爬虫基础博文中，python爬虫基础，写了一个获取深度为maxdepth内所有url函数，并且下载其网页。那么这篇博文我将详细讲解如何从这些下载的网页中获取我们想要数据。首先我们先得对python正则表达式有所了解，打开这个网页查看python正则表达式还需要对正则表达式里面一些常见的很容易混淆方法，例如re.search,re.match，有区别性的认识，打开这个网页查看Pyth
Python 多协程实验时报错 Error: maximum recursion depth exceeded 程序退出代码1073741571

在多协程程序代码过程中，试验了一个小项目，获取上千个url中页面，代码如下： import gevent from gevent.queue import Queue import time import requests from gevent import monkey#把下面有可能有IO操作的单独做上标记 monkey.patch_all() # 将IO转为异步执行的函数 link_li

depth-crawler-python

功能

安装说明

启动流程

效果浏览

同类工具

相关阅读

相关文章

相关问答

相关文档