当前位置: 首页 > 知识库问答 >
问题:

纳奇术语中的“段”到底是什么?

卢雅惠
2023-03-14

我刚刚开始使用Nutch 1.6。我执行了最初的爬行,直到我遇到以下问题为止:

LinkDb:adding segment:file:/var/apache-nutch/crawle/segments/2013031234747 LinkDb:adding seement:file:/var/apacher-nutch/grawle/segments/2013031250939 thread“main”org.apache.hadoop.mapred中出现异常。InvalidInputException:输入路径不存在:file:/var/apache-nutch/crable/segments/20130308114306/parse_data输入路径不存:位于org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInput_Format.java:197在org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:8989.7)在org.apache.hadoop.mapred.JobClient$2.run上java.security.AccessController上的(JobClient.java:850)。位于org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850),位于org.aapache.hadoop.mapred.JobClient.supmitJobInternal(Job客户端.java:850)的org.apacher.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)的javax.security.auth.Subject.doA(Subject.java:315),位于org.apache.nutch.crawl.runt(crawl.java:143)org.apacher.hadoop.util.ToolRunner.run(ToolRunner.java:65)org.aapache.nutch.grawl.crawl.main(crawl.java:55)

我想了解什么是nutch中的“分段”?在上述错误的开头,它说“LinkdB:adding segment…”它试图做什么?我们在细分什么?

共有1个答案

冷浩瀚
2023-03-14

Segment是一个分区[hadoop输入分区]创建的,由nutch运行的map duce作业,从输入的种子URL集合开始爬取,给爬虫进行爬取。

 类似资料:
  • 您能说Apache Karaf包括以下内容吗?其中包括: Apache Felix(它是OSGi 4.2框架的实现) Apache Aries(它是Blueprint标准的实现)

  • 本文向大家介绍Javascript中的Prototype到底是什么,包括了Javascript中的Prototype到底是什么的使用技巧和注意事项,需要的朋友参考一下 Javascript也是面向对象的语言,但它是一种基于原型Prototype的语言,而不是基于类的语言。在Javascript中,类和对象看起来没有太多的区别。 什么是prototype: function定义的对象有一个proto

  • 问题内容: 所有外部URL都类似于“模块/操作?key1 = param1”。无法进行自定义- 但速度很快。区别在于,第一个使用PHP的GET,第二个使用PATH_INFO。 我已经看过好几次了,但仍然不知道它到底是什么。它有什么作用? 问题答案: 实际上,它与服务PHP页面的Apache Web服务器有关,而与PHP本身无关。 是在启用指令后由Apache设置的环境变量。它将包含尾随路径名信息,

  • 本文向大家介绍Java中的Null到底是什么,包括了Java中的Null到底是什么的使用技巧和注意事项,需要的朋友参考一下 前言 对于Java程序员来说,null是令人头痛的东西。时常会受到空指针异常(NPE)的骚扰。连Java的发明者都承认这是他的一项巨大失误。Java为什么要保留null呢?null出现有一段时间了,并且我认为Java发明者知道null与它解决的问题相比带来了更多的麻烦,但是n

  • 主要内容:JSP的由来,Servlet与JSP异同点,JSP相对于Servlet的优点JSP(Java Server Pages)是一种动态网页开发技术。JSP 文件就是在传统的 HTML 文件中插入 Java 代码和 JSP 标签,后缀名为 。 JSP 与 PHP、ASP、ASP.NET 等语言类似,都运行在服务端。通常返回给客户端的就是一个 HTML 文件,因此只要有浏览器就能查看 JSP 页面。 JSP 使用 JSP 标签在 HTML 网页中插入 Java 代码,标签通常以

  • 直到我在旧存储库中随机检查 ,我才听说过这个文件,它就是一个我自己没有编辑过也从未见过的文件。我不知道它是如何到达那里的。 似乎很常见 - 主要是如何删除它(例如这里和这里)。 这个文件是什么,是什么创建了它?