我已经遵循了教程,并使用Cygwin将nutch配置为在Windows 7上运行,我正在使用Solr 5.4.0对数据进行索引
但是坚果1.11在执行爬行时遇到了问题。
爬网命令 $ bin/crawl -i -D solr.server.url=
错误/异常
注入种子网址 /apache-nutch-1.11/bin/坚果注射 /测试爬网/抓取 /urls 注射器:从 2016-01-19 开始 17:11:06 注入器: crawlDb: /测试爬网/爬网db 注入器: urlDir: /urls 注入器: 将注入的 URL 转换为抓取数据库条目。Injector: java.lang.NullPointerException at java.lang.ProcessBuilder.start(ProcessBuilder.java:1012) at org.apache.hadoop.util.Shell.runCommand(Shell.java:445) at org.apache.hadoop.util.shell.run(Shell.java:418) at org.apache.hadoop.util.util.shell.util.shell.java:650) at org.apache.hadoop.util.shell.execCommand(Shell.java:739) at org.apache.hadoop.util.Shell.execCommand(Shell.java:722) at org.apache.hadoop.fs.RawLocAlFileSystem.setPermission(RawLocalFileSystem.java:633) 在 org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:421) 在 org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:281) 在 org.apache.hadoop.mapreduce.jobduce.在 org.ap.java ache.hadoop.mapreduce.job$10.run(Job.java:1285) 在 org.apache.hadubup.mapreduce.job$10.run(JobSubmissionfiles.java:125) 在 org.apache.hadoop.mapreduce.job$10.run(Job.java:1285) 在 org.apache.hadoop.mapreduce.job$10.run(Job.java:1282) at java.security.AccessController.doPriviled(Native Method) at javax.security.auth.Subject.doAs(主题.java:422) at org.apache.hadoop.security.userGroupInformation.doAs(用户组信息.java:1548) at org.apache.hadoop.mapred..java mapred.jobClient$1.run(JobClient.java:562) at org.apache.hadoop.mapred.jobClient$1.run(JobClient.java:557) at java.security.accessController.doPriviled(Native Method)at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.userGroupInformation.doAs(用户组信息.java:1548) at org.apache.hadoop.mapred.jobClient.submitJobInternal(JobClient.java:557) at org.apache.hadoop.mapred.jobClient.submitJob(JobClient.java:548) at org.apache.hadoop.mapred.jobClient.runJob(JobClient.java:833) at org.apache.nutch.crawl.injector.injector.inject(Injector.java:323) 在 org.apache.nutch.crawl.injector.run(注入器.java:379) 在组织.apache.hadoop.util.工具运行器.运行(工具运行器.java:70) 在组织.apache.坚果.爬行.注入器主(注入器.java:369)
Error running:
/home/apache-nutch-1.11/bin/nutch inject /TestCrawl/crawldb /urls
Failed with exit value 127.
使用nutch时,需要< code>hadoop-core jar文件
>
与nutch 1.11兼容的hadoop核心jar是0.20.0
请从以下链接下载Jar:http://www . Java 2s . com/Code/Jar/h/download Hadoop 0200 core Jar . htm
将该罐子粘贴到“C:\cygwin64\home\apache-nutch-1.11\lib”
文件夹中,它将成功运行。
我可以看到你的命令有多个问题,试试这个:
bin/crawl -i -Dsolr.server.url=http://127.0.0.1:8983/solr/core_name path_to_seed crawl 2
第一个问题是当你传递solr参数的时候有一个空格。第二个问题是solr url也应该包含核心名称。
我正在尝试开发一个小的网络爬虫,它下载网页并搜索特定部分的链接。但当我运行这段代码时,“href”标记中的链接会变短。如: 原文链接:“/kids-toys-action-figures-accessories/b/ref=toys_hp_catblock_actnfig?ie=utf8&node=165993011&pf_rd_m=atvpdkikx0der&pf_rd_s=merchandis
我正在尝试让nutch 1.11执行爬网。我正在使用cygwin在windows 7中运行这些命令。 Nutch正在运行,运行bin/Nutch会得到结果,但当我尝试运行爬网时,会不断收到错误消息。 当我尝试使用 nutch 运行爬网执行时,我收到以下错误: 运行时出错:/cygdrive/c/Users/User5/Documents/Nutch/apache-Nutch-1.11/runtim
本文向大家介绍node.js爬虫爬取拉勾网职位信息,包括了node.js爬虫爬取拉勾网职位信息的使用技巧和注意事项,需要的朋友参考一下 简介 用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京、上海、广州、深圳、杭州、西安、成都7个城市的数据,分别以前端、PHP、java、c++、python、Android、ios作为关键词进行爬取,爬到的数据以json格式储存到本地
问题内容: 在使用nutch和elasticsearch进行爬网时面临一些严重的问题。 我们的应用程序中有两个数据存储引擎。 的MySQL elasticsearch 可以说我在mysql db的urls表中存储了10个url。现在,我想在运行时从表中获取这些url,并将其写入seed.txt以进行爬网。我已经将所有这些网址一次性写入了txt。现在,我开始抓取,然后将这些文档在elasticsea
问题内容: 我想做一个基于Java的网络爬虫进行实验。我听说如果您是第一次使用Java编写Web爬虫,那是必须走的路。但是,我有两个重要问题。 我的程序如何“访问”或“连接”到网页?请简要说明。(我了解从硬件到软件的抽象层的基础,这里我对Java抽象感兴趣) 我应该使用哪些库?我假设我需要一个用于连接到网页的库,一个用于HTTP / HTTPS协议的库和一个用于HTML解析的库。 问题答案: 这是
主要内容:认识爬虫,爬虫分类,爬虫应用,爬虫是一把双刃剑,为什么用Python做爬虫,编写爬虫的流程网络爬虫又称网络蜘蛛、网络机器人,它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页,并将所需要的数据抓取下来。通过对抓取的数据进行处理,从而提取出有价值的信息。 认识爬虫 我们所熟悉的一系列搜索引擎都是大型的网络爬虫,比如百度、搜狗、360浏览器、谷歌搜索等等。每个搜索引擎都拥有自己的爬虫程序,比如 360 浏览器的爬虫称作 360Spider,搜狗的爬虫叫做