网络爬虫相关软件以及论文检索与推荐网站调研

仲和韵

2023-12-01

最近接到一个项目，需要做一个基于网络爬虫技术的论文检索与推荐的网站，所以打算先对市面上已有的基于此技术的软件进行一次统计和分析，以备后面查询使用。

一. 网络爬虫相关软件

1. 搜索引擎 Nutch
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch的创始人是Doug Cutting，他同时也是Lucene、Hadoop和Avro开源项目的创始人。
Nutch诞生于2002年8月，是Apache旗下的一个用Java实现的开源搜索引擎项目，自Nutch1.2版本之后，Nutch已经从搜索引擎演化为网络爬虫，接着Nutch进一步演化为两大分支版本：1.X和2.X，这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。
在Nutch的进化过程中，产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速，极其火爆，尤其是Hadoop，其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本，Gora支持把大数据持久化到多种存储实现，Crawler Commons是一个通用的网络爬虫组件。
Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做
每个月取几十亿网页
为这些网页维护一个索引
对索引文件进行每秒上千次的搜索
提供高质量的搜索结果
以最小的成本运作

2. 网站爬虫 Grub Next Generation
Grub Next Generation 是一个分布式的网页爬虫系统，包含客户端和服务器可以用来维护网页的索引。

3. 网站数据采集软件网络矿工采集器（原soukey采摘）
Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件，也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源，但并不会影响软件功能的提供，甚至要比一些商用软件的功能还要丰富。Soukey采摘当前提供的主要功能如下：

多任务多线程数据采集，支持POST方式；
可采集Ajax页面；
支持Cookie，支持手工登录采集数据；
支持采集事务；
支持数据自动及手工导出，导出格式为：文本、Excel、Access、MSSql、Mysql等；
支持在线发布数据；
支持导航网址的采集，导航深度不限；
支持自动翻页；
支持文件下载，可以采集图片、Flash及其他文件；
支持采集结果数据的加工，包括替换、附前缀后缀、截取等操作，支持正则；
采集网址定义不仅支持基本参数定义，也可外接字典数据作为网址参数，进行数据采集；
支持一个任务多实例运行；
提供计划任务，计划任务支持Soukey采集任务、外部可执行文件任务、数据库存储过程任务；
计划任务执行周期支持每天、每周及自定义运行间隔；最小单位为：半小时；
支持任务触发器，即可在采集任务完成后，自动触发执行其他任务（包括可执行文件或存储过程）。
完善的日志功能：系统日志、任务执行日志、出错日志等等；
系统提供MINI浏览器可用于捕获Cookie或POST数据；

Soukey采摘并不限制您是否商用此软件，源码完全开放，
soukey采摘正式更名为网络矿工采集器开源版
网络矿工开源版自2010年之后未再进行开发，所以重启开发计划，依旧开源，最新代码还是在sourceforge上，感兴趣的朋友可参与其中。

4. PHP的Web爬虫和搜索引擎 PhpDig
PhpDig是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时，它将按一定的排序规则显示包含关键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更强、层次更深的个性化搜索引擎，利用它打造针对某一领域的垂直搜索引擎是最好的选择。

5. Java网页爬虫 JSpider
JSpider是一个用Java实现的WebSpider，JSpider的执行格式如下：

jspider [URL] [ConfigName]

URL一定要加上协议名称，如：http://，否则会报错。如果省掉ConfigName，则采用默认配置。
JSpider 的行为是由配置文件具体配置的，比如采用什么插件，结果存储方式等等都在conf[ConfigName]\目录下设置。JSpider默认的配置种类很少，用途也不大。但是JSpider非常容易扩展，可以利用它开发强大的网页抓取与数据分析工具。要做到这些，需要对JSpider的原理有深入的了解，然后根据自己的需求开发插件，撰写配置文件。

6. 网站内容采集器 Snoopy
Snoopy是一个强大的网站内容采集器（爬虫）。提供获取网页内容，提交表单等功能。

7. 垂直爬虫 webmagic
webmagic的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。

以下是爬取oschina博客的一段代码：

Spider.create(new SimplePageProcessor(“http://my.oschina.net/“,
“http://my.oschina.net//blog/“)).thread(5).run();

webmagic采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)，支持多线程抓取，分布式抓取，并支持自动重试、自定义UA/cookie等功能。

webmagic包含强大的页面抽取功能，开发者可以便捷的使用css selector、xpath和正则表达式进行链接和内容的提取，支持多个选择器链式调用。例如：

String extractResult = Html.create(html).$(“div.body”)
.xpath(“//a/@href”).regex(“.blog.“).toString();

webmagic也可以很方便的作为一个模块，嵌入Java项目中运行。webmagic的使用可以参考：oschina openapi 应用：博客搬家

webmagic的使用文档：http://webmagic.io/docs/

webmagic的设计文档：webmagic的设计机制及原理-如何开发一个Java爬虫
8. OpenWebSpider
OpenWebSpider是一个开源多线程Web Spider（robot：机器人，crawler：爬虫)和包含许多有趣功能的搜索引擎。

9. 网页抓取／信息提取软件 MetaSeeker
爬虫软件MetaSeeker，现已全面升级为GooSeeker。新版本已经发布，在线版免费下载和使用，源代码可阅读。自推出以来，深受喜爱，主要应用领域：

垂直搜索（Vertical Search）：也称为专业搜索，高速、海量和精确抓取是定题网络爬虫DataScraper的强项，每天24小时每周7天无人值守自主调度的周期性批量采集，加上断点续传和软件看门狗(Watch Dog)，确保您高枕无忧

移动互联网：手机搜索、手机混搭(mashup)、移动社交网络、移动电子商务都离不开结构化的数据内容，DataScraper实时高效地采集内容，输出富含语义元数据的XML格式的抓取结果文件，确保自动化的数据集成和加工，跨越小尺寸屏幕展现和高精准信息检索的障碍。手机互联网不是 Web的子集而是全部，由MetaSeeker架设桥梁

企业竞争情报采集/数据挖掘：俗称商业智能（Business Intelligence），噪音信息滤除、结构化转换，确保数据的准确性和时效性，独有的广域分布式架构，赋予DataScraper无与伦比的情报采集渗透能力，AJAX/Javascript动态页面、服务器动态网页、静态页面、各种鉴权认证机制，一视同仁。在微博网站数据采集和舆情监测领域远远领先其它产品。
10. 爬虫小新 Sinawler
国内第一个针对微博数据的爬虫程序！原名“新浪微博爬虫”。

登录后，可以指定用户为起点，以该用户的关注人、粉丝为线索，延人脉关系搜集用户基本信息、微博数据、评论数据。

该应用获取的数据可作为科研、与新浪微博相关的研发等的数据支持，但请勿用于商业用途。该应用基于.NET2.0框架，需SQL SERVER作为后台数据库，并提供了针对SQL Server的数据库脚本文件。

另外，由于新浪微博API的限制，爬取的数据可能不够完整（如获取粉丝数量的限制、获取微博数量的限制等）

本程序版权归作者所有。你可以免费: 拷贝、分发、呈现和表演当前作品,制作派生作品。你不可将当前作品用于商业目的。

5.x版本已经发布！该版本共有6个后台工作线程：爬取用户基本信息的机器人、爬取用户关系的机器人、爬取用户标签的机器人、爬取微博内容的机器人、爬取微博评论的机器人，以及调节请求频率的机器人。更高的性能！最大限度挖掘爬虫潜力！以现在测试的结果看，已经能够满足自用。

本程序的特点：

1、6个后台工作线程，最大限度挖掘爬虫性能潜力！

2、界面上提供参数设置，灵活方便

3、抛弃app.config配置文件，自己实现配置信息的加密存储，保护数据库帐号信息

4、自动调整请求频率，防止超限，也避免过慢，降低效率

5、任意对爬虫控制，可随时暂停、继续、停止爬虫

6、良好的用户体验

二. 论文检索与推荐网站

研究者社会网络搜索与挖掘系统(ArnetMiner)

研究者社会网络搜索与挖掘系统（ArnetMiner）以海量国际学术论文数据为基础，抽取集成研究人员的语义信息，建立相互之间的社会关系网络，提供多粒度、多维度语义搜索与挖掘服务，包括个人信息搜索、研究兴趣分析、学术能力评价、专家发现、审稿人推荐、专家关联关系搜索等。系统2006年7月正式上线运行，至今（2012年12月）系统已从全球范围自动收集204万研究人员与464万篇文献信息，已吸引了220个国家和地区的活跃用户，平均月访问量超过200万次。
　　系统主要创新点如下：
　　一、针对大规模网络资源中抽取语义信息的难题，提出的多维依赖关系标注方法和基于最小风险的本体映射框架，抽取精度高、召回率高，成功建立了支持学术评价和学术关系发现的社会网络。
　　二、针对异构对象之间复杂依赖关系和社会网络的不确定性，从隐含语义话题的角度对学术研究网络中的论文、作者、以及会议和期刊主题，进行概率图建模，为社会关联分析和网络拓扑分析提供了有效支撑。
　　三、针对学术关系网络中异构对象的排序难题，通过寻找低维隐空间，将异构对象映射至该空间进行排序学习，实现了异构对象全局权威度的高效计算。
　　上述研究成果完善了Web语义集成、主题模型、网络排序学习以及社会网络搜索与挖掘的理论体系和技术方法，在SCI、EI源刊上发表论文82篇，SCI他引131次，Google Scholar引用2657次，得到KDD、Nature Biotechnology等权威刊物上同行作者的高度评价，并取得发明专利授权7项，受理5项，软件著作权5项。
　　系统已经为全球最大学术期刊出版社Elsevier、以及SIGKDD 2010-13、ICDM 2011-13等20余个重要国际会议提供论文-审稿人推荐和语义信息服务，被认为是世界上最有代表性的学术社会网络分析系统之一。研究成果还在与华为、IBM、Google、Nokia、通用汽车、美孚、腾讯、搜狐等企业的合作项目中得到推广。

万方数据知识服务平台
万方数据知识服务平台（WanfangDataKnowledgeServicePlatform）是在原万方数据资源系统的基础上，经过不断改进、创新而成，集高品质信息资源、先进检索算法技术、多元化增值服务、人性化设计等特色于一身，是国内一流的品质信息资源出版、增值服务平台。
（一）资源介绍
1. 中国学术期刊数据库（CSPD)（原数字化期刊群），英文名称：China Science Periodical Database（简称CSPD）
2. 中国学位论文全文数据库（CDDB），英文名称：ChinaDissertationDatabase（简称CDDB）
3. 中国学术会议文献数据库(CCPD) ，英文名称：China Conference Paper Database（简称CCPD）
4. 中外专利数据库（WFPD），英文名称：Wanfang Patent Database（简称WFPD）
5. 中外标准数据库（WFSD），英文名称：WanfangStandardsDatabase（简称WFSD）
6. 中国法律法规数据库(CLRD)，英文名称：ChinaLaws&RegulationsDatabase（简称CLRD）
7. 中国科技成果数据库（CSTAD），英文名称：ChinaScientific&TechnologicalAchievementsDatabase（简称CSTAD）
8. 中国特种图书数据库（CSBD），英文名称：China Special Books Database（简称CSBD）
9. 中国机构数据库（CIDB），英文名称：China Institution Database（简称CIDB）
中国机构数据库是以1988年的《中国企业、公司及产品数据库》（CECDB）为基础扩展的数据库系统。
中国企业机构数据库（CEOD），英文名称：China Enterprise&Organization Database（简称CEOD）
10. 中国专家数据库(CESD)，英文名称：China Experts&Scholar Database（简称CESD）
11. 中国学者博文索引库（WFBID），英文名称：Wanfang BlogIndex Database（简称WFBID）
12. OA论文索引库(OAPID)，英文名称：OA PaperIndex Database（简称OAPID）
(二) 出版服务
我们从用户检索需求出发，对用户知识获取及使用过程进行分析，并结合业界对认知过程和行为模式的最新研究，全面升级知识服务平台，推出全新的检索系统，提供互动式信息服务。让用户从一两个简单的检索词就可以开始一次简单、精准、快速、稳定的检索体验。在这里，用户总是能得到一个经过甄选的检索结果，真正想要的文献会优先显示在前面。用户可以通过检索结果的分布视图进行“排除”和“限定”，使检索更精准。用户也可以通过参考文献、引证文献、相似文献顺藤摸瓜。

中国知网
中国知网，是国家知识基础设施（National Knowledge Infrastructure，NKI）的概念，由世界银行于1998年提出。CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目，由清华大学、清华同方发起，始建于1999年6月。
中国知网，是国家知识基础设施（National Knowledge Infrastructure，NKI）的概念，由世界银行于1998年提出。CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目，由清华大学、清华同方发起，始建于1999年6月。在党和国家领导以及教育部、中宣部、科技部、新闻出版总署、国家版权局、国家发改委的大力支持下，在全国学术界、教育界、出版界、图书情报界等社会各界的密切配合和清华大学的直接领导下，CNKI工程集团经过多年努力，采用自主开发并具有国际领先水平的数字图书馆技术，建成了世界上全文信息量规模最大的”CNKI数字图书馆”，并正式启动建设《中国知识资源总库》及CNKI网格资源共享平台，通过产业化运作，为全社会知识资源高效共享提供最丰富的知识信息资源和最有效的知识传播与数字化学习平台。（一般评定职称所说的中国期刊网，即是中国知网）
CNKI工程的具体目标：一是大规模集成整合知识信息资源，整体提高资源的综合和增值利用价值；二是建设知识资源互联网传播扩散与增值服务平台，为全社会提供资源共享、数字化学习、知识创新信息化条件；三是建设知识资源的深度开发利用平台，为社会各方面提供知识管理与知识服务的信息化手段；四是为知识资源生产出版部门创造互联网出版发行的市场环境与商业机制，大力促进文化出版事业、产业的现代化建设与跨越式发展。
凭借优质的内容资源、领先的技术和专业的服务，中国知网在业界享有极高的声誉，在2007年，中国知网旗下的《中国学术期刊网络出版总库》获首届“中国出版政府奖”，《中国博士学位论文全文数据库》、《中国年鉴网络出版总库》获提名奖。这是中国出版领域的最高奖项。国家“十一五”重大网络出版工程—–《中国学术文献网络出版总库》也于2006年通过新闻出版总署组织的鉴定验收。
通过与期刊界、出版界及各内容提供商达成合作，中国知网已经发展成为集期刊杂志、博士论文、硕士论文、会议论文、报纸、工具书、年鉴、专利、标准、国学、海外文献资源为一体的、具体国际领先水平的网络出版平台。中心网站的日更新文献量达5万篇以上。
基于海量的内容资源地增值服务平台，任何人、任何机构都可以在中国知网建立自己个人数字图书馆，定制自己需要的内容。越来越多的读者将中国知网作为日常工作和学习的平台。

网络爬虫相关软件以及论文检索与推荐网站调研

一. 网络爬虫相关软件

二. 论文检索与推荐网站

相关阅读

相关文章

相关问答

相关文档