首页 ¦ 归档 > 分类: Python 网络爬虫

QQ空间爬虫分享

这次主要替换了程序里一些不可用的链接,对登录时的验证码作了处理,对去重队列作了优化。并且可以非常简单地实现爬虫分布式扩展。


基于Redis的Bloomfilter去重(附Python代码)

“去重”是日常工作中会经常用到的一项技能,在爬虫领域更是常用,并且规模一般都比较大。去重需要考虑两个点:去重的数据量、去重速度。为了保持较快的去重速度,一般选择在内存中进行去重。


新浪微博爬虫分享

更新完《QQ空间爬虫分享(2016年11月18日更新)》,现在将新浪微博爬虫的代码也更新一下吧。

© PyCN技术评论. Built using Pelican. Theme by Giulio Fidente on github.