当前位置: 首页 > 知识库问答 >
问题:

尝试使用nutch-java.net进行爬网时出错。本地主机名上的UnknownHostException

孙翰墨
2023-03-14

试图在Centos 6.6上用纳奇1.9爬行。

在遵循本指南后尝试初始化我的第一次爬网时:

http://wiki.apache.org/nutch/NutchTutorial

但是,我在启动时遇到以下异常:

Injector:将注入的URL转换为爬网html" target="_blank">数据库条目。喷油器:java.net。未知主机异常:Sparky。立克:火花四射。LITK:java.security.AccessController上org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:960)的java.net.InetAddress.getLocalHost(InetAddress.java:1473)中的名称或服务未知。位于org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1353)的org.apacher.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1190)的javax.security.auth.Subject.doAs(Subject.java:415)的doPrivileged(本机方法)org.apache.nutch.grable.Injector.Injector(Injector.java:324)位于org.apacher.nutch.crable.Injector.run(Injector.java:380)位于org.apache.hadoop.util.ToolRunner.run中(ToolRunner.java:65),位于org.aapache.nutch.rawle.Injector.main(In射器.java=370)由java.net引起。未知主机异常:Sparky。LITK:java.net.Inet6AddressImpl上的名称或服务未知。位于java.net.InetAddress.getLocalHost(InetAddress.java:1469)的java.net.InetAddress.getAddressFromNameService(InetAddress.java:1293)的java.net.InetAddress$1.lookupAllHostAddr(InetAdd.java:901)的lookupAllHostAdder(本机方法)……还有12个

它似乎试图抓取机器自己的主机名(Sparky.LITK),这不是我想要它做的事情,我根据教程设置了一个种子.txt列表,但它卡在这里。

共有1个答案

欧阳何平
2023-03-14

修复方法非常简单,只需将您的机器的主机名添加到/etc/hosts文件中,指向您的回送地址(127.0.0.1)

我对主机条目进行了修改,如下所示:

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4 Sparky.LITK
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6 Sparky.LITK

它成功了!

 类似资料:
  • 我正在尝试让nutch 1.11执行爬网。我正在使用cygwin在windows 7中运行这些命令。 Nutch正在运行,运行bin/Nutch会得到结果,但当我尝试运行爬网时,会不断收到错误消息。 当我尝试使用 nutch 运行爬网执行时,我收到以下错误: 运行时出错:/cygdrive/c/Users/User5/Documents/Nutch/apache-Nutch-1.11/runtim

  • 我看到了一些像http://homes.mitula.ph/homes/makati这样的搜索网站,我想知道他们是如何抓取其他网站(如、和)中的数据并将其显示到他们的站点上的。 我正在考虑使用Solr索引数据,使用Nutch抓取数据。我是一个新的网页抓取和索引,目前为止,我只能抓取一个网页的内容。 Solr Nutch能做那种爬行吗?怎么做的?

  • 我将使用托管进行实时测试,但我想保护访问并防止搜索引擎索引。例如(服务器目录结构)public_html: _private _bin _cnf _log _...(更多默认目录托管) testPublic css 图像 index.html < 我想index.html是可见的每个人和所有其他目录(除了testPublic)是隐藏的,受保护的访问和搜索引擎不索引。 目录"testPublic"我

  • 我是一个Web开发新手,我已经开始学习后端。我在后端选择了Java,所以我开始学习Spring启动。我使用了IntelliJ ide。当我运行我的第一个代码时,我连接到了端口8080。但是当我在网络浏览器中打开localhost:8080页面时,它显示了一个登录页面或其他一些页面。但是在我遵循的一些教程中,他们能够修改localhost:8080页面。甚至试图更改端口,比如8090,它打开了相同的

  • 我正在阅读有关C中线程的教程并测试了以下代码: 我试图使用gcc和g编译此代码,但我总是遇到编译错误。 使用gcc-pthread thread_test.c: /tmp/ccmpQLyp。o: 在函数std::cout'thread_test.cpp: 你能帮忙吗?我必须做些什么才能让这段代码在Linux和Windows上运行吗?

  • 我已经遵循了教程,并使用Cygwin将nutch配置为在Windows 7上运行,我正在使用Solr 5.4.0对数据进行索引 但是坚果1.11在执行爬行时遇到了问题。 爬网命令 $ bin/crawl -i -D solr.server.url= 错误/异常 注入种子网址 /apache-nutch-1.11/bin/坚果注射 /测试爬网/抓取 /urls 注射器:从 2016-01-19 开始