当前位置: 首页 > 知识库问答 >
问题:

如何用nutch和索引特定标记解析html到Solr?

慕容修伟
2023-03-14
<div id=something>
      me specific tag
</div>

你知道吗?

共有1个答案

黄兴业
2023-03-14

我做了我自己的插件类似的东西,你想。将NutchDocument映射到SolrDocument的配置文件位于$nutch_home/conf/solrindex-mapping.xml中。在这里你可以添加你自己的标签。但你还是得在某个地方填上自己的标签。

以下是一些插件技巧:

>

  • 阅读http://wiki.apache.org/nutch/writingpluginexample,在这里您可以找到如何使您的插件变得非常简单
  • 在插件中扩展ParseFilter和IndexingFilter。
  • 在YourParseFilter中,可以使用NodeWalker查找特定的div
  • 将解析的信息放入页面元数据中,如下所示

    doc.add(“your_specific_tag”,value);

    最重要!!!!!

    将your_specific_tag放入以下文件:

    • Solr配置文件schema.xml(并重新启动Solr)

    字段name=“your_specific_tag”type=“string”stored=“true”indexed=“true”

      null

  •  类似资料:
    • 我实际上正在用Java开发一个文本解析器,有人要求我通过用它解析HTML来增强它。解析器的目的是将被解析的文件分成另外三个文件,一个包含文件中包含的所有单词,一个包括所有句子,另一个包含所有问题。 *.txt部分工作得很好,但我在解析HTML时遇到了一个问题。 我创建了一个扩展名为*.txt的临时文件,并将其在我的文本解析器中传递,但是如果我传递一个带有HTML文件链接的URL,其格式如下所示:

    • 我最近开始在nutch上工作,我试图理解它是如何工作的。据我所知,Nutch基本上是用来抓取web的,Solr/Lucene是用来索引和搜索的。但是当我阅读nutch的文档时,它说nutch也做倒排索引。它是否在内部使用Lucene来进行索引,或者它是否有其他一些用于索引的库?如果它使用solr/Lucene进行索引,那么为什么有必要像nutch教程所说的那样用nutch配置solr呢? 是默认情

    • 我试图从这些div标签中获取文本,但是它们都不返回任何内容: HTML: 我想得到div类“消息”和h4标记和跨越“日期时间”中的文本,我试图: 和: 但是他们没有成功。

    • 代码(存储在Element对象中,由jsoup提供): 我想知道正确的方法是否是同时使用time和strong-element来解析它,因为strong-element似乎总是开始一个新行。 谢谢你!

    • 我要提取的数据来自这个网站https://www.adobe.com/support/security/advisories/apsa11-04.html。我只想提取 发布日期:2011年12月6日最后更新:2012年1月10日漏洞标识符:APSA11-04 CVE编号:CVE-2011-2462 代码: 输出: 我不想要这些信息。我该如何过滤呢? 平台:全部*注意:Adobe Reader fo

    • 我想在整个Elasticsearch索引上自动应用n-gram标记化。 文档提到最终运行分析以应用标记器,但分析器似乎需要显式字符串输入才能工作。 问题:我如何告诉ES“分析整个索引”(即扫描并标记所有内容)? 上下文:我有一些ES索引,主要来自简单帖子(例如广告、事件、用户配置文件)的MYSQL数据库,但一些索引也是JSON中固定的预定义术语列表(例如200个品牌、400个标签、20个类别等),