当前位置: 首页 > 知识库问答 >
问题:

Nutch/Elastic搜索词定义

杨阳飇
2023-03-14

我使用nutch和ElasticSearch来抓取/解析99个网站/链接,以便在ElasticSearch中索引它们,这样我就可以使用搜索引擎了。它确实抓取了所有99个网站/链接,但我得到的最终消息如下。我试图理解重定向、添加/更新是什么意思?如果有可能找出哪些已经消失并重定向?

Indexer: number of documents indexed, deleted, or skipped:
Indexer:      5  deleted (gone)
Indexer:      8  deleted (redirects)
Indexer:     76  indexed (add/update)
Indexer: finished at 2020-12-17 13:07:19, elapsed: 00:00:08

共有1个答案

姬心思
2023-03-14

Nutch不知道页面是否已经在索引中。为了保持索引和爬网内容的同步,

  • 成功获取的页被发送到索引,并被计算为添加或更新
  • (使用索引器选项-deleteGone)404s和其他失败的获取将从索引中删除,并计算为“gone”
  • 重定向相同,但单独计算为“重定向”

如果有可能找出哪些已经消失并重定向?

  • readdb转储爬网b
  • readseg转储索引的段

然后搜索404s、获取失败、重定向等。调用bin/nutch readdbresp。bin/nutch readseg将显示所有可用的命令行选项。

 类似资料:
  • 我有一个应用程序的想法,使搜索引擎使用工具Nutch,ES和Kibana。Nutch用于爬行,ES用于索引,Kibana用于可视化。 目前,我有所有的程序罚款,我可以成功地使用他们在终端。我的问题是,是否有可能使一个Java应用程序将Nutch、Es和Kibana都集成在一起? 我对应用程序的想法是,它将接受nutch爬网的URL,爬网后,它将接受索引的术语。最后,它将与数据的Kibana一起制作

  • 我试着遵循这里列出的Nutch+ES指南 https://gist.github.com/xrstf/b48a970098a8e76943b9 https://qbox.io/blog/scring-the-web-wit-nutch-for-elasticsearch 然而,我无法让他们的组合工作。基本上,我在Nutch上执行了以下命令: 现在,我想将获取的数据索引到ES中,我按照指南进行了操作

  • 搜索词 关键参数 报告 method metrics(指标, 数据单位) 其他参数 搜索词 source/searchword/a pv_count (浏览量(PV)) pv_ratio (浏览量占比,%) visit_count (访问次数) visitor_count (访客数(UV)) new_visitor_count (新访客数) new_visitor_ratio (新访客比率,%)

  • 1.如何突出显示返回的搜索项或结果中的数据,例如ctr f在打开文件中使用普通项/元素搜索的方式。2.添加json自动完成,即当用户基于数据库数据在搜索栏中键入时给出建议这是我的视图代码,但它所做的只是返回结果,而没有真正突出显示搜索项。任何帮助pliza: @view_config(route_name=“search”,renderer='./templates/search.mako',pe

  • 搜索关键字推荐 调用地址 http://api.bilibili.cn/suggest 参数 字段 必选 类型 说明 term true string 关键字 sponly false int 只显示专题 返回 这个返回非常奇葩,没有数组装数据,我就随便写一下,看不懂自己调用分析结果 返回值字段 字段类型 字段说明 {x} string 第 x 个关键词建议

  • 问题内容: 我正在尝试实现一个程序,该程序将接受用户输入,将该字符串拆分为标记,然后在字典中搜索该字符串中的单词。我解析的字符串的目标是使每个标记都成为英语单词。 例如: 我目前有这段代码,可以完成所有工作,直到所需的输出部分为止: 我知道有更好的方法来存储字典(例如,二进制搜索树或哈希表),但无论如何我都不知道如何实现。 我坚持如何实现一种方法,该方法将检查拆分字符串以查看每个段是否都是词典中的