当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

Sinawler

爬虫小新

授权协议 GPLv3

开发语言 C# .NET

所属分类应用工具、网络爬虫

软件类型开源软件

地区不详

投递者韦欣德

操作系统 Windows

开源组织无

适用人群未知

软件概览

国内第一个针对微博数据的爬虫程序！原名“新浪微博爬虫”。

登录后，可以指定用户为起点，以该用户的关注人、粉丝为线索，延人脉关系搜集用户基本信息、微博数据、评论数据。

该应用获取的数据可作为科研、与新浪微博相关的研发等的数据支持，但请勿用于商业用途。该应用基于.NET2.0框架，需SQL SERVER作为后台数据库，并提供了针对SQL Server的数据库脚本文件。

另外，由于新浪微博API的限制，爬取的数据可能不够完整（如获取粉丝数量的限制、获取微博数量的限制等）

本程序版权归作者所有。你可以免费: 拷贝、分发、呈现和表演当前作品,制作派生作品。你不可将当前作品用于商业目的。

5.x版本已经发布！该版本共有6个后台工作线程：爬取用户基本信息的机器人、爬取用户关系的机器人、爬取用户标签的机器人、爬取微博内容的机器人、爬取微博评论的机器人，以及调节请求频率的机器人。更高的性能！最大限度挖掘爬虫潜力！以现在测试的结果看，已经能够满足自用。

本程序的特点：

1、6个后台工作线程，最大限度挖掘爬虫性能潜力！

2、界面上提供参数设置，灵活方便

3、抛弃app.config配置文件，自己实现配置信息的加密存储，保护数据库帐号信息

4、自动调整请求频率，防止超限，也避免过慢，降低效率

5、任意对爬虫控制，可随时暂停、继续、停止爬虫

6、良好的用户体验

相关资料

15 爬虫与反爬虫

有的时候，当我们的爬虫程序完成了，并且在本地测试也没有问题，爬取了一段时间之后突然就发现报错无法抓取页面内容了。这个时候，我们很有可能是遇到了网站的反爬虫拦截。我们知道，网站一方面想要爬虫爬取网站，比如让搜索引擎爬虫去爬取网站的内容，来增加网站的搜索排名。另一方面，由于网站的服务器资源有限，过多的非真实的用户对网站的大量访问，会增加运营成本和服务器负担。因此，有些网站会设置一些反爬虫的措施。我
爬虫

这一章将会介绍使用一些新的模块(optparse,spider)去完成一个爬虫的web应用。爬虫其实就是一个枚举出一个网站上面的所有链接，以帮助你创建一个网站地图的web应用程序。而使用Python则可以很快的帮助你开发出一个爬虫脚本. 你可以创建一个爬虫脚本通过href标签对请求的响应内容进行解析，并且可以在解析的同时创建一个新的请求，你还可以直接调用spider模块来实现，这样就不需要自己去写
通用爬虫和聚焦爬虫

根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫就是捜索引擎抓取系统，目的是将互联网上的所有的网页下载到本地，形成一个互联网内容的镜像备份。它决定着整个搜索引擎内容的丰富性和时效性，因此它的性能优劣直接影响着搜索引擎的效果。通用搜索引擎（Search Engine）工作原理第一步：抓取网页搜索引擎网络爬虫的基本工作流程如下：首先选取一部分的初始UR
[实例]爬虫下载小说

主要内容：案例简单分析,编写爬虫程序本节通过具体的爬虫程序，演示 BS4 解析库的实际应用。爬虫程序目标：下载诗词名句网（ https://www.shicimingju.com/book/）《两晋演义》小说。关于分析网页分过程，这里不再做详细介绍了，只要通读了前面的文章，那么关于如何分析网页，此时您应该了然于胸了。其实，无论您爬取什么类型的网站，分析过程总是相似的。案例简单分析首先判网站属于静态网站，因此您的主要任务是分析
爬虫项

爬虫项是什么呢？比如采集文章列表、文章详情页，他们都是不同的采集项。定义示例：继承Yurun\Crawler\Module\Crawler\Contract\BaseCrawlerItem类。 <?php namespace Yurun\CrawlerApp\Module\YurunBlog\Article; use Imi\Bean\Annotation\Bean; use Yurun\C
小程序的爬虫能爬动态数据吗?

页面的内容如果是刚加载时从后台动态拉取的,那么像微信小程序这样的爬虫能爬吗? 如果不能爬的话,如果是浏览器,可以使用服务器渲染的技术来做 SEO,那么小程序是怎么做这种搜索优化

同类工具

Combine MetaSeeker skycaiji WebPasser Sinawler DenseSpider xxl-crawler NETSpider

相关阅读

Python小白学习爬虫常用请求报头 node.js实现博客小爬虫的实例代码零基础写python爬虫之爬虫的定义及URL构成 python爬虫爬取淘宝商品信息 Python爬虫爬取新闻资讯案例详解

相关文章

[实例]爬虫抓取网页第一个Python爬虫程序实战-Swing实现简单爬虫 Python爬虫实战：王者荣耀全套皮肤采集 JavaScript算法-爬楼梯

相关问答

Storm爬虫中的ES查询异常网络爬虫 - 如何解决爬虫切片时只能获取单个数据项的问题?最佳爬虫确定与技术构建？Java中的网络爬虫。下载网页问题 python爬虫 - https认证如何用代码实现？

相关文档

爬虫课件 Python 原生爬虫教程 WebMagic 爬虫框架中文文档 Python 爬虫学习系列教程宇润爬虫框架 Yurun Crawler 帮助文档