当前位置: 首页 > 知识库问答 >
问题:

Apache Nutch-仅对Solr中修改过的文件进行索引

穆俊哲
2023-03-14

Iam能够设置Apache Nutch并在Solr中获得数据索引。在编制索引时,我试图确保只对修改过的页面进行索引。下面是我们对此有的两个问题。

>

  • 有没有可能告诉Nutch在抓取站点时发送“if-modified-since”头,并且只有在页面自上次抓取以来发生了更改时才下载该页面。

    我可以看到Nutch正在从检索到的页面内容中形成MD5摘要,但是即使摘要没有改变(与以前的版本相比),它仍然在Solr中索引页面。在Nutch中是否有任何设置来确保内容没有改变,在Solr中没有索引?

  • 共有1个答案

    公孙琛
    2023-03-14

    在这里回答我自己的问题,希望当我设置adaptivefetchschedule时,它能帮助别人看到Nutch没有拉出未更改的页面。它很荣幸的if-modified-since头。

     类似资料:
    • 我有一个新的需求需要使用apache Camel来实现。 null 但无法实现第4点。上面的代码拾取刚创建的新文件(意思是创建日期和修改日期相同)。 有没有人能帮我实现第4点(即它不应该在那个目录中拾取新文件)

    • 问题内容: 我想我的调用或当我指定一个文件被修改浏览器。修改文件后,我该如何“观看”该文件以执行某些操作? 以编程方式看来,这些步骤是..基本上每秒设置一个永无休止的间隔,并缓存初始修改日期,然后每当更改一次调用X时便比较该日期。 问题答案: 如前所述,您可以使用pyinotify: 例如: 这比轮询更有效。内核会告诉您何时进行操作,而无需您不断询问。

    • 我们有一个客户正在使用谷歌搜索设备(GSA)搜索数千个PDF文件。PDF文件位于子文件夹中组织的文件共享上。它定期发现新文件并将其添加到数据库中。 GSA还不够好,所以现在他们需要替代品。例如,他们的GSA无法在PDF中正确搜索垂直文本。我们已经研究了Apache Lucene和Solr以及Tika和ExtractingRequestHandler。 我已经启动并运行了Solr示例,并添加了一个使

    • 问题内容: 你好堆栈溢出的朋友。我有一个简单的问题,我担心没有简单的解决方案,我需要有关如何进行的建议。我正在开发一个打包为可执行JAR的Java应用程序,但它需要在执行过程中修改其某些JAR文件内容。在此阶段,我遇到了问题,因为某些操作系统锁定了文件,从而阻止了对该文件的写入。 用户必须在应用程序退出时看到jar文件的更新版本,这一点非常重要,尽管我可以非常灵活地实现这一目标。干净,高效的解决方

    • [2016-01-08 15:06:49,354][WARN][http.netty][Marvel Man]在处理客户端http tra ffic时捕获异常,关闭连接[ID:0x2D26BAEC,/0:0:0:0:0:0:0:0:0:1:58923=>/0:0:0:0:1:9200]org.jboss.netty.handler.codec.frame.ToolongFrameException

    • 我想知道在Java中是否可以修改文本文件中的特定行。我有一个文本文件,如下所示: 行1:0 行2:1 第3排:0 行4:1 我正在使用这个: 结果是: 行1:0 行2:1 第3排:0 第4行:12 等 如果我设置的偏移量为任何其他值比0,我收到这个异常: java线程“AWT-EventQueue-0”中出现异常。lang.StringIndexOutOfBoundsException:字符串索引