当前位置: 首页 > 工具软件 > Regain > 使用案例 >

全文搜索工具regain学习笔记--配置文件

许马鲁
2023-12-01

1.爬虫配置文件 CrawlerConfiguration

     用于设置开始抓取的路径、索引存放的位置等内容

<startlist>开始爬的路径 

<whitelist>必须爬到的路径

<blacklist>爬取时屏蔽的路径

<searchIndex>关于索引的配置

             <dir>索引存放的位置

              <analyzerType>分析器的名称,需要与搜索时一致。默认为german,似乎对        中文查询没有影响

               <stopwordlist>停止词单 用于分词

 <preparerator> 预处理器 提取文档内容

 <crawlerplugin>  爬虫中用到的插件

 <crawlerAccessController>用于配置权限控制模块(如果自己添加了权限控制的话)

            

如果单独运行爬虫,只需要给出起始路径即可,如果与desktopserver一起使用,则不用给出起始路径,在jsp页面中的preference里面设置即可

2.searchConfiguration

  <sortResults>搜索结果的排序菜单

  <openInNewWindowRegex>选择显示特定格式的文件(设置了之后木有反应,伤感)

  <searchAccessController>设置权限管理 (同理,如果自己加了权限管理模块的话)

3.DeskTopConfiguration

  <port>设置服务器所用端口 如<port>8020</port> 则打开regain 时输入localhost8020/regain

大部分内容不用修改,默认的配置就可以用了


 类似资料: