问题：

如何在Ubuntu10.10中配置Nutch和solr？

长孙阳泽

2023-03-14

我试图为我最后一年的项目建立一个搜索引擎。在过去的两个月里，我对这个话题做了很多研究。我发现我需要一个爬虫来爬行互联网，一个解析器和一个索引器。

我试图使用Nutch作为爬虫和solr索引Nutch抓取的数据。但是我被困在他们两个的安装部分。我试图安装Nutch和solr在我的系统帮助下，在互联网上的教程，但没有任何工作对我。

接下来，我被解析器困住了。我对这个阶段一无所知。我需要帮助这里关于如何做数据解析前的索引。

我不想建立谷歌什么的。所有我需要的是从某些网站的某些项目被搜索。

我有Java经验，我可以轻松地使用它，但我不是像你们这样的专业人员，请告诉我我是否在正确的方向上前进，以及我下一步应该做什么。

我使用的是Ubuntu10.10，我有Apache Tomcat7。

共有1个答案

麻茂材

2023-03-14

关于解析器，nutch有自己的一组解析器，您不必费心解析。触发crawl命令，自动完成。除非您想解析nutch提供的内容以外的内容，否则这对您来说不会是一个问题。如果您希望nutch解析一些。xyz文件，那么您需要为此编写解析器插件并与nutch集成。

类似资料：

如何在windows中配置nutch 1.8错误：nutch：找不到命令

我正在尝试在windows 7中配置nutch，我已经按照以下步骤进行了操作我已经下载并解压缩了apache nutch 1.8，我已经在conf/nutch-site.xml中指定了代理名称在阿帕奇家园听从指挥 mkdir-p URL cd网址触摸种子。txt文件-- nutch.apache.org/ 在conf/regex-urlfilter中。txt编辑方式-- 但当我在垃圾桶里 b
如何在angularJS中配置routeProvider和locationProvider？

问题内容：我想在angularJS中激活html5Mode，但是我不知道为什么它不起作用。我的代码有什么问题吗？在HTML 问题答案：我看到的唯一问题是相对链接和模板因此无法正确加载。来自有关HTML5模式的文档相对链接请务必检查所有相对链接，图像，脚本等。您必须在主html文件（）的开头指定网址库，或者必须在所有地方都使用绝对网址（以开头），因为相对网址将解析为绝对网址使用文档的初始
如何在eclipse中配置cucumber和selenium

我想使用eclipse IDE使用cucumber和selenium，但我需要帮助，我如何设置maven项目，以及在pom.xml文件中应该添加哪些依赖项，请提供步骤。
如何在PHP中配置和运行PHPmailer

这个问题听起来可能很傻，但对我来说却很头痛。我正在使用AMPS。。。我需要在我的项目中实现邮件通知。我已经下载了PHPmailer rar文件并解压缩到我的项目文件夹中。它包含，*get_oauth_token.php*src-Exception.php-oauth.php-PHPMailer.php-POP3.php-SMTP.php我在那个文件夹中只得到了这个文件。这里我收到一条错误消息说，
如何在Eclipse中配置applicationcontext.xml

问题内容：当我将struts.xml放入web-inf时显示错误......当我将src文件夹放入时，它工作正常。（在web- inf中为applicationcontext.xml）当我将applicationcontext.xml放在src文件夹中时（在（src文件夹或src / resources）中为struts.xml）.......这就是说无法在web-inf文件夹中找到appli
如何在Swing中配置EDT？

问题内容：我有一个正在Swing中构建的应用程序。它具有可滚动和缩放的图表组件，可以平移和缩放它。整个过程很平滑，除了有时UI会暂停约750 ms，我不知道为什么。这种情况并非总是会发生-但有时应用程序中会发生某些事情，并且每6-8秒就会开始暂停一次。很显然，EDT上有一些事件需要花费750毫秒左右的时间才能运行，这不应该发生。我如何特别像这样配置EDT？我真正想做的是获取在每次事件在EDT

如何在Ubuntu10.10中配置Nutch和solr？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档