问题：

Nutch 1.11爬网问题

束帅

2023-03-14

我已经遵循了教程，并使用Cygwin将nutch配置为在Windows 7上运行，我正在使用Solr 5.4.0对数据进行索引

但是坚果1.11在执行爬行时遇到了问题。

爬网命令 $ bin/crawl -i -D solr.server.url=

错误/异常

注入种子网址 /apache-nutch-1.11/bin/坚果注射 /测试爬网/抓取 /urls 注射器：从 2016-01-19 开始 17：11：06 注入器： crawlDb： /测试爬网/爬网db 注入器： urlDir： /urls 注入器：将注入的 URL 转换为抓取数据库条目。Injector： java.lang.NullPointerException at java.lang.ProcessBuilder.start（ProcessBuilder.java：1012） at org.apache.hadoop.util.Shell.runCommand（Shell.java：445） at org.apache.hadoop.util.shell.run（Shell.java：418） at org.apache.hadoop.util.util.shell.util.shell.java：650） at org.apache.hadoop.util.shell.execCommand（Shell.java：739） at org.apache.hadoop.util.Shell.execCommand（Shell.java：722） at org.apache.hadoop.fs.RawLocAlFileSystem.setPermission（RawLocalFileSystem.java：633）在 org.apache.hadoop.fs.RawLocalFileSystem.mkdirs（RawLocalFileSystem.java：421）在 org.apache.hadoop.fs.FilterFileSystem.mkdirs（FilterFileSystem.java：281）在 org.apache.hadoop.mapreduce.jobduce.在 org.ap.java ache.hadoop.mapreduce.job$10.run（Job.java：1285）在 org.apache.hadubup.mapreduce.job$10.run（JobSubmissionfiles.java：125）在 org.apache.hadoop.mapreduce.job$10.run（Job.java：1285）在 org.apache.hadoop.mapreduce.job$10.run（Job.java：1282） at java.security.AccessController.doPriviled（Native Method） at javax.security.auth.Subject.doAs（主题.java：422） at org.apache.hadoop.security.userGroupInformation.doAs（用户组信息.java：1548） at org.apache.hadoop.mapred..java mapred.jobClient$1.run（JobClient.java：562） at org.apache.hadoop.mapred.jobClient$1.run（JobClient.java：557） at java.security.accessController.doPriviled（Native Method）at javax.security.auth.Subject.doAs（Subject.java：422） at org.apache.hadoop.security.userGroupInformation.doAs（用户组信息.java：1548） at org.apache.hadoop.mapred.jobClient.submitJobInternal（JobClient.java：557） at org.apache.hadoop.mapred.jobClient.submitJob（JobClient.java：548） at org.apache.hadoop.mapred.jobClient.runJob（JobClient.java：833） at org.apache.nutch.crawl.injector.injector.inject（Injector.java：323）在 org.apache.nutch.crawl.injector.run（注入器.java：379）在组织.apache.hadoop.util.工具运行器.运行（工具运行器.java：70）在组织.apache.坚果.爬行.注入器主（注入器.java：369）

Error running:
/home/apache-nutch-1.11/bin/nutch inject /TestCrawl/crawldb /urls
Failed with exit value 127.

共有2个答案

令狐昂雄

2023-03-14

使用nutch时，需要< code>hadoop-core jar文件

与nutch 1.11兼容的hadoop核心jar是0.20.0

请从以下链接下载Jar:http://www . Java 2s . com/Code/Jar/h/download Hadoop 0200 core Jar . htm

将该罐子粘贴到“C：\cygwin64\home\apache-nutch-1.11\lib”文件夹中，它将成功运行。

司马萧迟

2023-03-14

我可以看到你的命令有多个问题，试试这个：

bin/crawl -i -Dsolr.server.url=http://127.0.0.1:8983/solr/core_name path_to_seed crawl 2

第一个问题是当你传递solr参数的时候有一个空格。第二个问题是solr url也应该包含核心名称。

类似资料：

Java中的网络爬虫。下载网页问题

我正在尝试开发一个小的网络爬虫，它下载网页并搜索特定部分的链接。但当我运行这段代码时，“href”标记中的链接会变短。如：原文链接：“/kids-toys-action-figures-accessories/b/ref=toys_hp_catblock_actnfig？ie=utf8&node=165993011&pf_rd_m=atvpdkikx0der&pf_rd_s=merchandis
执行爬网时出现Nutch问题

我正在尝试让nutch 1.11执行爬网。我正在使用cygwin在windows 7中运行这些命令。 Nutch正在运行，运行bin/Nutch会得到结果，但当我尝试运行爬网时，会不断收到错误消息。当我尝试使用 nutch 运行爬网执行时，我收到以下错误：运行时出错：/cygdrive/c/Users/User5/Documents/Nutch/apache-Nutch-1.11/runtim
node.js爬虫爬取拉勾网职位信息

本文向大家介绍node.js爬虫爬取拉勾网职位信息，包括了node.js爬虫爬取拉勾网职位信息的使用技巧和注意事项，需要的朋友参考一下简介用node.js写了一个简单的小爬虫，用来爬取拉勾网上的招聘信息，共爬取了北京、上海、广州、深圳、杭州、西安、成都7个城市的数据，分别以前端、PHP、java、c++、python、Android、ios作为关键词进行爬取，爬到的数据以json格式储存到本地
坚果爬网文档的Elasticsearch映射中面临的问题

问题内容：在使用nutch和elasticsearch进行爬网时面临一些严重的问题。我们的应用程序中有两个数据存储引擎。的MySQL elasticsearch 可以说我在mysql db的urls表中存储了10个url。现在，我想在运行时从表中获取这些url，并将其写入seed.txt以进行爬网。我已经将所有这些网址一次性写入了txt。现在，我开始抓取，然后将这些文档在elasticsea
Java Web爬网程序库

问题内容：我想做一个基于Java的网络爬虫进行实验。我听说如果您是第一次使用Java编写Web爬虫，那是必须走的路。但是，我有两个重要问题。我的程序如何“访问”或“连接”到网页？请简要说明。（我了解从硬件到软件的抽象层的基础，这里我对Java抽象感兴趣）我应该使用哪些库？我假设我需要一个用于连接到网页的库，一个用于HTTP / HTTPS协议的库和一个用于HTML解析的库。问题答案：这是
网络爬虫是什么

主要内容：认识爬虫,爬虫分类,爬虫应用,爬虫是一把双刃剑,为什么用Python做爬虫,编写爬虫的流程网络爬虫又称网络蜘蛛、网络机器人，它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页，并将所需要的数据抓取下来。通过对抓取的数据进行处理，从而提取出有价值的信息。认识爬虫我们所熟悉的一系列搜索引擎都是大型的网络爬虫，比如百度、搜狗、360浏览器、谷歌搜索等等。每个搜索引擎都拥有自己的爬虫程序，比如 360 浏览器的爬虫称作 360Spider，搜狗的爬虫叫做

Nutch 1.11爬网问题

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档