当前位置: 首页 > 工具软件 > TPDA > 使用案例 >

New SubProject TPDA

翟京
2023-12-01

Xspider2的前期已经完成,目前的版本是0.1.1b可以实现

 

Single page的抓取; 页面深度的返回与存储

 

现在打算在X2的基础上增加一个页面深度及路径的算法,这个算法我称之为TPDA,按照GNU风格的解释

 

TPDA: The Page/Point Depth Algorithm.

 

争取实现:

  • 页面深度和路径
  • 无分词文本空间高频词语提取
  • 路径最优算法
核心算法可能采取JAVA去描述,Python来实现架构,有机会的话最好实践把Perl
 类似资料:

相关阅读

相关文章

相关问答