c语言版网络爬虫spiderq
最近不知吃了什么药,对网络爬虫非常有兴趣,记得以前想过写个爬虫把自己百度博客的帖子都抓下来备份,现在正是时机了。代码是(用了近两周晚上加周末时间)在linux环境下用c/c++语言写的,已经发布到github上了。结构还算清晰,使用了多线程、高级多路IO复用、socket网络编程等技术和一些哈希算法,爬取性能还是不错的。目前还在不断地进行细节优化(目前是1.0版本)。
有此方面兴趣的同学们可以下载下来看看,也希望看过代码的人可以相互切磋交流,甚至加入到开发中(可以联系我)。
Github:https://github.com/qteqpid/spiderq