当前位置: 首页 > 工具软件 > Gordian Knot > 使用案例 >

遇到爬虫Gordian Knot怎么办?

鲍国兴
2023-12-01

• 寻找“打印此页”的链接,或者看看网站有没有 HTML 样式更友好的移动版(把自己的请求头设置成处于移动设备的状态,然后接收网站移动版)。


• 寻找隐藏在 JavaScript 文件里的信息。要实现这一点,你可能需要查看网页加载的JavaScript 文件


• 虽然网页标题经常会用到,但是这个信息也许可以从网页的 URL 链接里获取。


• 如果你要找的信息不只限于这个网站, 那么你可以找找其他数据源。有没有其他网站也显示了同样的数据?网站上显示的数据是不是从其他网站上抓取后攒出来的?


尤其是在面对埋藏很深或格式不友好的数据时, 千万不要不经思考就写代码,一定要三思而后行。

bsObj.findAll("table")[4].findAll("tr")[2].find("td").findAll("div")[1].find("a")

写出这样的代码不仅缺失美感,而且非常容易失效(当网站管理员对网站稍作修改)

 类似资料: