当我尝试运行时,以下错误来了,在mongodb日志中,一个连接被接受并立即结束。如何解决它?
$ bin/crawl conf/urls/seedss.txt tuto 1 No SOLRURL 未指定。跳过索引。注入种子 URL /e/apache-nutch/apache-nutch-2.3.1/运行时/本地/bin/坚果注入 conf/urls/种子.txt -crawlId tuto 注入器作业:从 2016-10-01 18:15:14 注入器工作: 注入 urlDir: conf/urls/seeds.txt 注入器工作: 使用类组织.apache.gora.mongodb.store.MongoStore 作为 Gora 存储类.java.java。org.apache.hadoop.util.Shell.run(Shell.java:455) at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:702) at org.apache.hadoop.util.Shell.execCommand(Shell.java:791) at org.apache.hadoop.util.shell.execCommandand(Shell.java:774) at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:646) at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:434)过滤器文件系统.java:281) 在 org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:125) 在组织.apache.hadoop.mapreduce.jobS 提交者.submitJobInternal(JobSubmitter.java:348) 在组织.apache.hadoop.mapreduce..java jobs.1285) 在组织.apache.hadoop.mapreduce.job$10.run(Job.java:1282) 在 java.security.访问控制器.doPrivileded(本机方法) 在 javax.security.auth.主题.doAs(主题.java:415) 在用户组信息.doAs(用户组信息.java:1614) 在 org.apache.hadoop.mapreduce.Job.submit(Job.java:1282) 在 org.apache.hadoop.mapreduce.job.waitforCompletion(Job.java:1303) 在 org.apache.nutch.nutch.util.NutchJob.waitforcompletion(NutchJob.java:115) 在 org.apache.nutch.crawl.injectorjob.run(InjectorJob.java:231) 在 org.apache.nutch.crawl.injectorjob.inject(注入者工作.java:252) 在 org.apache.crawl.crawl.注入者工作运行(注射器工作.java:275) 在组织.apache.hadoop.util.工具运行者.运行(工具运行器.java:70) 在组织.apache.坚果.爬行.喷射器工作 main(注入者工作.java:284)
我通过删除两行来解决此问题,即:
[field name="sitemaps" docfield="sitemaps" type="document"]
和
[field name="stmPriority" docfield="stmPriority" type="int32"]
从nutch的gora-mongodb-mapping.xml
文件夹中的conf
文件。希望对您有所帮助。.
我相信最新版本的纳奇使用
# bin/nutch inject seedDirectory/
这至少对我有用。
Apache Kafka:分布式消息传递系统 Apache Storm:实时消息处理 我们如何在实时数据管道中使用这两种技术来处理事件数据? 在实时数据管道方面,我觉得两者做的工作是一样的。如何在数据管道上同时使用这两种技术?
我正在使用Flink从Apache Pulsar读取数据。我在pulsar中有一个分区主题,有8个分区。在本主题中,我生成了1000条消息,分布在8个分区中。我的笔记本电脑中有8个内核,因此我有8个子任务(默认情况下,并行度=#个内核)。在执行Eclipse中的代码后,我打开了Flink UI,发现一些子任务没有收到任何记录(空闲)。我希望所有8个子任务都能得到利用(我希望每个子任务都映射到我的主
我们需要的是直接的API来设置和使用集群消息队列。我们最初的计划是使用Camel在集群JMS或ActiveMQ队列上进行消费/生产。Kafka如何使这项任务变得更容易?在任何一种情况下,应用程序本身都将在WebLogic服务器上运行。 消息传递将是点对点类型,其中有多个相同服务的实例在运行,但根据负载平衡策略,只有一个实例应该处理消息并发出结果。消息队列也是群集的,因此服务实例或队列实例的失败都不
我正在使用jersey构建一个web服务应用程序。使用apache shiro进行授权/身份验证im。 我找到了一些演示如何在web应用程序中使用apache shiro的教程。它们使用显示登录方法。具有用户名和密码字段的jsp页面,并且超过此字段。jsp页面是在shiro中配置的。我喜欢这样: 我想知道如何在没有任何密码的情况下进行身份验证。jsp页面,因为我的项目只有web服务。因此,我想我需
目前我正在研究Apache spark和Apache ignite框架。 这篇文章介绍了它们之间的一些原则差异,但我意识到我仍然不理解它们的目的。 我的意思是,哪一个问题更容易产生火花而不是点燃,反之亦然?
下面是我成功运行两三天后持续获得的异常的详细信息。有人能指导我吗?