问题：

尝试使用nutch-java.net进行爬网时出错。本地主机名上的UnknownHostException

孙翰墨

2023-03-14

试图在Centos 6.6上用纳奇1.9爬行。

在遵循本指南后尝试初始化我的第一次爬网时:

http://wiki.apache.org/nutch/NutchTutorial

但是，我在启动时遇到以下异常：

Injector：将注入的URL转换为爬网html" target="_blank">数据库条目。喷油器：java.net。未知主机异常：Sparky。立克：火花四射。LITK：java.security.AccessController上org.apache.hadoop.mapred.JobClient$2.run（JobClient.java:960）的java.net.InetAddress.getLocalHost（InetAddress.java:1473）中的名称或服务未知。位于org.apache.hadoop.mapred.JobClient.runJob（JobClient.java:1353）的org.apacher.hadoop.security.UserGroupInformation.doAs（UserGroupInformation.java:1190）的javax.security.auth.Subject.doAs（Subject.java:415）的doPrivileged（本机方法）org.apache.nutch.grable.Injector.Injector（Injector.java:324）位于org.apacher.nutch.crable.Injector.run（Injector.java:380）位于org.apache.hadoop.util.ToolRunner.run中（ToolRunner.java:65），位于org.aapache.nutch.rawle.Injector.main（In射器.java=370）由java.net引起。未知主机异常：Sparky。LITK：java.net.Inet6AddressImpl上的名称或服务未知。位于java.net.InetAddress.getLocalHost（InetAddress.java:1469）的java.net.InetAddress.getAddressFromNameService（InetAddress.java：1293）的java.net.InetAddress$1.lookupAllHostAddr（InetAdd.java:901）的lookupAllHostAdder（本机方法）……还有12个

它似乎试图抓取机器自己的主机名（Sparky.LITK），这不是我想要它做的事情，我根据教程设置了一个种子.txt列表，但它卡在这里。

共有1个答案

欧阳何平

2023-03-14

修复方法非常简单，只需将您的机器的主机名添加到/etc/hosts文件中，指向您的回送地址(127.0.0.1)

我对主机条目进行了修改，如下所示：

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4 Sparky.LITK
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6 Sparky.LITK

它成功了！

类似资料：

执行爬网时出现Nutch问题

我正在尝试让nutch 1.11执行爬网。我正在使用cygwin在windows 7中运行这些命令。 Nutch正在运行，运行bin/Nutch会得到结果，但当我尝试运行爬网时，会不断收到错误消息。当我尝试使用 nutch 运行爬网执行时，我收到以下错误：运行时出错：/cygdrive/c/Users/User5/Documents/Nutch/apache-Nutch-1.11/runtim
使用Solr Nutch对特定数据进行Web爬网

我看到了一些像http://homes.mitula.ph/homes/makati这样的搜索网站，我想知道他们是如何抓取其他网站（如、和）中的数据并将其显示到他们的站点上的。我正在考虑使用Solr索引数据，使用Nutch抓取数据。我是一个新的网页抓取和索引，目前为止，我只能抓取一个网页的内容。 Solr Nutch能做那种爬行吗？怎么做的？
使用主机进行实时测试

我将使用托管进行实时测试，但我想保护访问并防止搜索引擎索引。例如（服务器目录结构）public_html： _private _bin _cnf _log _...（更多默认目录托管） testPublic css 图像 index.html < 我想index.html是可见的每个人和所有其他目录（除了testPublic）是隐藏的，受保护的访问和搜索引擎不索引。目录"testPublic"我
使用spring boot时加载本地主机页面出错

我是一个Web开发新手，我已经开始学习后端。我在后端选择了Java，所以我开始学习Spring启动。我使用了IntelliJ ide。当我运行我的第一个代码时，我连接到了端口8080。但是当我在网络浏览器中打开localhost:8080页面时，它显示了一个登录页面或其他一些页面。但是在我遵循的一些教程中，他们能够修改localhost:8080页面。甚至试图更改端口，比如8090，它打开了相同的
尝试在Ubuntu上使用pthread时出错

我正在阅读有关C中线程的教程并测试了以下代码：我试图使用gcc和g编译此代码，但我总是遇到编译错误。使用gcc-pthread thread_test.c： /tmp/ccmpQLyp。o：在函数std:：cout'thread_test.cpp: 你能帮忙吗？我必须做些什么才能让这段代码在Linux和Windows上运行吗？
Nutch 1.11爬网问题

我已经遵循了教程，并使用Cygwin将nutch配置为在Windows 7上运行，我正在使用Solr 5.4.0对数据进行索引但是坚果1.11在执行爬行时遇到了问题。爬网命令 $ bin/crawl -i -D solr.server.url= 错误/异常注入种子网址 /apache-nutch-1.11/bin/坚果注射 /测试爬网/抓取 /urls 注射器：从 2016-01-19 开始

尝试使用nutch-java.net进行爬网时出错。本地主机名上的UnknownHostException

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档