问题：

如何用nutch和索引特定标记解析html到Solr？

慕容修伟

2023-03-14

<div id=something>
      me specific tag
</div>

你知道吗？

共有1个答案

黄兴业

2023-03-14

我做了我自己的插件类似的东西，你想。将NutchDocument映射到SolrDocument的配置文件位于$nutch_home/conf/solrindex-mapping.xml中。在这里你可以添加你自己的标签。但你还是得在某个地方填上自己的标签。

以下是一些插件技巧：

阅读http://wiki.apache.org/nutch/writingpluginexample，在这里您可以找到如何使您的插件变得非常简单

在插件中扩展ParseFilter和IndexingFilter。

在YourParseFilter中，可以使用NodeWalker查找特定的div

将解析的信息放入页面元数据中，如下所示

doc.add（“your_specific_tag”,value）；

最重要！！！！！

将your_specific_tag放入以下文件：

Solr配置文件schema.xml（并重新启动Solr)

字段name=“your_specific_tag”type=“string”stored=“true”indexed=“true”

null

类似资料：

JSoup-逐标记解析HTML标记

我实际上正在用Java开发一个文本解析器，有人要求我通过用它解析HTML来增强它。解析器的目的是将被解析的文件分成另外三个文件，一个包含文件中包含的所有单词，一个包括所有句子，另一个包含所有问题。 *.txt部分工作得很好，但我在解析HTML时遇到了一个问题。我创建了一个扩展名为*.txt的临时文件，并将其在我的文本解析器中传递，但是如果我传递一个带有HTML文件链接的URL，其格式如下所示：
nutch与solr索引

我最近开始在nutch上工作，我试图理解它是如何工作的。据我所知，Nutch基本上是用来抓取web的，Solr/Lucene是用来索引和搜索的。但是当我阅读nutch的文档时，它说nutch也做倒排索引。它是否在内部使用Lucene来进行索引，或者它是否有其他一些用于索引的库？如果它使用solr/Lucene进行索引，那么为什么有必要像nutch教程所说的那样用nutch配置solr呢？是默认情
使用Jsoup解析HTML div标记

我试图从这些div标签中获取文本，但是它们都不返回任何内容: HTML: 我想得到div类“消息”和h4标记和跨越“日期时间”中的文本，我试图：和：但是他们没有成功。
用Java和jsoup解析特定的HTML代码

代码（存储在Element对象中，由jsoup提供）：我想知道正确的方法是否是同时使用time和strong-element来解析它，因为strong-element似乎总是开始一个新行。谢谢你！
如何使用Python从HTML中提取中的特定标记

我要提取的数据来自这个网站https://www.adobe.com/support/security/advisories/apsa11-04.html。我只想提取发布日期：2011年12月6日最后更新：2012年1月10日漏洞标识符:APSA11-04 CVE编号：CVE-2011-2462 代码：输出：我不想要这些信息。我该如何过滤呢？平台：全部*注意：Adobe Reader fo
如何自动标记整个索引？

我想在整个Elasticsearch索引上自动应用n-gram标记化。文档提到最终运行分析以应用标记器，但分析器似乎需要显式字符串输入才能工作。问题：我如何告诉ES“分析整个索引”（即扫描并标记所有内容）？上下文：我有一些ES索引，主要来自简单帖子（例如广告、事件、用户配置文件）的MYSQL数据库，但一些索引也是JSON中固定的预定义术语列表（例如200个品牌、400个标签、20个类别等），

如何用nutch和索引特定标记解析html到Solr？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档