当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

NCrawler

Web爬虫工具

授权协议 LGPL

开发语言 C#

所属分类应用工具、网络爬虫

软件类型开源软件

地区不详

投递者嵇永望

操作系统 Windows

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

NCrawler 是一个Web Crawler 工具，它可以让开发人员很轻松的发展出具有Web Crawler 能力的应用程式，并且具有可以延展的能力，让开发人员可以扩充它的功能，以支援其他类型的资源（例如PDF /Word/Excel 等档案或其他资料来源）。 NCrawler 使用多执行绪（Multi-threading）模式针对网路资源进行探索，并且会依照给定的步骤来处理抓取到的资源，然后依给定的资源来活动（像是写入资料库或是撷取部份资料等等）。

使用案例

NCrawler 学习

NCrawler是一款国外的开源网络爬虫软件，遵循LGPL许可协议。其HTML处理使用的是htmlagilitypack开源库，采用xpath的方式处理定位网页元素，十分方便。同时其采用HttpWebRequest异步的方式获取网页，采集效率较高。台湾微软MSDN有一篇如何使用NCrawler参考文章。官方地址：http://ncrawler.codeplex.com/ 转载于:https://
Ncrawler源码阅读

Ncrawler是一个在codeplex上的.NET爬虫项目，项目是.net4.0的。里面充满了linq、lambda表达式。。。而我则习惯在.net2.0，所以代码阅读起来，真的是有点痛苦。没办法，一句话，死撑吧。另外发现一个linqbrige这个库，可以在.net2.0下实现linq to object的语法，支持lambda表达式，而且这个库的大小也只有几十kb，对于在2.0平台的开发同胞
网络采集库NCrawler

NCrawler是一款国外的开源网络爬虫软件，遵循LGPL许可协议。其HTML处理使用的是htmlagilitypack开源库，采用xpath的方式处理定位网页元素，十分方便。同时其采用HttpWebRequest异步的方式获取网页，采集效率较高。台湾微软MSDN有一篇如何使用NCrawler参考文章。官方地址：http://ncrawler.codeplex.com/ 转载于:https://
C#开源爬虫NCrawler源代码解读以及将其移植到python3.2（4）

在上一节我们回顾了python 多线程的知识。 queue这个线程安全的序列正是python用来实现线程池的关键。我们可以把爬虫需要解析的URL放入这个序列中，供其它空闲的线程获取并使用。线程池的实现: import ThreadPool.dlthread class threadpool: def __init__( self,queue,handlers,maxdepth,num_
C#开源爬虫NCrawler源代码解读以及将其移植到python3.2（1）

NCrawler 是一款 .net 上的开源爬虫,虽然它没有arachnode.net那么成熟完善,但是代码量小,设计结构好,很适合大家研读。在NCrawler.Demo项目下的Program.cs文件中,找到Main函数函数开头的一段代码,是打开HTTP协议的限制(对同一个WEB最多同时发起两个连接的限制) ServicePointManager.MaxServicePoints = 999
C#开源爬虫NCrawler源代码解读以及将其移植到python3.2（3）

在将程序移植到python之前,先来复习一下python的多线程编程的相关知识。请看下面的一段代码： import time import threading import urllib.request import queue class ThreadUrl(threading.Thread): def __init__(self,q,name): threadi
C#开源爬虫NCrawler源代码解读以及将其移植到python3.2（5）(selenium登场)

"在这一篇文章中，我们将使用 python 一个著名的网页解析库 BeautifulSoup 来实现一个标准的 Handler，并使用广度优先算法让爬虫工作起来。" 本来如上文预想,是要用bs4的,不过 bs4 这个库太简单了，网上教程都有，所以改用 selenium 。 selenium是一个著名的网站自动化测试的框架, 它能模拟手工操作浏览器, 获取一些传统爬虫无法获取的网页内容(比如
NCrawler爬虫在应用中一些问题

1）HTML 处理使用的是htmlagilitypack，其中HtmlEntity.DeEntitize函数处理文本中的转义字符后， " " 字符映射为UNICODE 160，影响某些文本的分词处理。目前没有好解决方案，我的方法是在调用函数前把这个串过滤掉，毕竟这个串是在文本中出现最多的。 2）关于深度搜索时候，添加到队列中的URI，默认情况是：“不是本站点的子链接，都过滤，不处理
C#开源爬虫NCrawler源代码解读以及将其移植到python3.2（2）

在上一篇中,我们提到了管道这个概念(pipeline),其实所有的管道都实现了同一接口叫 public interface IPipelineStep { void Process(Crawler crawler, PropertyBag propertyBag); } 所有爬到的网址都将被构造 Crawler 时通过构造函数注入的管道处理。一般来说第一个处理的管道是 HtmlDo
NCrawler老是出问题，头痛……

需要做一个爬虫，最开始看到网上对larbin评价不错，就想着在它的基础上改改，结果后来发现我这个从来没在linux上做过开发的人，这么一下在上手效率是在太低。想找个基于Windows的C或者C++的开源爬虫结果没发现有合适的。于是不得已只能转投C#阵营了，虽然不是很熟，但毕竟是微软的，比起直接转到java还是简单不少。千辛万苦找到了NCrawler，发现相对于其他几个比如Arach

NCrawler

同类工具

相关阅读

相关文章

相关问答

相关文档