当前位置: 首页 > 知识库问答 >
问题:

如何在Ubuntu10.10中配置Nutch和solr?

长孙阳泽
2023-03-14

我试图为我最后一年的项目建立一个搜索引擎。在过去的两个月里,我对这个话题做了很多研究。我发现我需要一个爬虫来爬行互联网,一个解析器和一个索引器。

我试图使用Nutch作为爬虫和solr索引Nutch抓取的数据。但是我被困在他们两个的安装部分。我试图安装Nutch和solr在我的系统帮助下,在互联网上的教程,但没有任何工作对我。

接下来,我被解析器困住了。我对这个阶段一无所知。我需要帮助这里关于如何做数据解析前的索引。

我不想建立谷歌什么的。所有我需要的是从某些网站的某些项目被搜索。

我有Java经验,我可以轻松地使用它,但我不是像你们这样的专业人员,请告诉我我是否在正确的方向上前进,以及我下一步应该做什么。

我使用的是Ubuntu10.10,我有Apache Tomcat7。

共有1个答案

麻茂材
2023-03-14

关于解析器,nutch有自己的一组解析器,您不必费心解析。触发crawl命令,自动完成。除非您想解析nutch提供的内容以外的内容,否则这对您来说不会是一个问题。如果您希望nutch解析一些。xyz文件,那么您需要为此编写解析器插件并与nutch集成。

 类似资料:
  • 我正在尝试在windows 7中配置nutch,我已经按照以下步骤进行了操作 我已经下载并解压缩了apache nutch 1.8,我已经在conf/nutch-site.xml中指定了代理名称 在阿帕奇家园听从指挥 mkdir-p URL cd网址 触摸种子。txt文件-- nutch.apache.org/ 在conf/regex-urlfilter中。txt编辑方式-- 但当我在垃圾桶里 b

  • 问题内容: 我想在angularJS中激活html5Mode,但是我不知道为什么它不起作用。我的代码有什么问题吗? 在HTML 问题答案: 我看到的唯一问题是相对链接和模板因此无法正确加载。 来自有关HTML5模式的文档 相对链接 请务必检查所有相对链接,图像,脚本等。您必须在主html文件()的开头指定网址库,或者必须在所有地方都使用绝对网址(以开头),因为相对网址将解析为绝对网址使用文档的初始

  • 我想使用eclipse IDE使用cucumber和selenium,但我需要帮助,我如何设置maven项目,以及在pom.xml文件中应该添加哪些依赖项,请提供步骤。

  • 这个问题听起来可能很傻,但对我来说却很头痛。我正在使用AMPS。。。我需要在我的项目中实现邮件通知。我已经下载了PHPmailer rar文件并解压缩到我的项目文件夹中。它包含,*get_oauth_token.php*src-Exception.php-oauth.php-PHPMailer.php-POP3.php-SMTP.php我在那个文件夹中只得到了这个文件。 这里我收到一条错误消息说,

  • 问题内容: 当我将struts.xml放入web-inf时显示错误......当我将src文件夹放入时,它工作正常。(在web- inf中为applicationcontext.xml) 当我将applicationcontext.xml放在src文件夹中时(在(src文件夹或src / resources)中为struts.xml).......这就是说无法在web-inf文件夹中找到appli

  • 问题内容: 我有一个正在Swing中构建的应用程序。它具有可滚动和缩放的图表组件,可以平移和缩放它。整个过程很平滑,除了有时UI会暂停约750 ms,我不知道为什么。这种情况并非总是会发生-但有时应用程序中会发生某些事情,并且每6-8秒就会开始暂停一次。 很显然,EDT上有一些事件需要花费750毫秒左右的时间才能运行,这不应该发生。 我如何特别像这样配置EDT?我真正想做的是获取在每次事件在EDT