特牛网址导航

分布式爬虫设计-CSDN博客

网友收藏
文章浏览阅读1.6k次。网上也有很多的分布式爬虫框架的解决方案,下面我就以自己工作的经验进行一些总结: 一,爬虫的技术要点 要向批量抓取某一个大站,你需要自己搭建一套爬虫框架。要考虑封IP问题,考虑图片验证码识别问题,考虑数据处理问题等。 封IP--常见的解决方案基本上就是告诉你抓免费代理,或者购买代理,我这里想到的是如果你有条件有多个路由器,完全可以自己实现一套定时拨号程序来防止IP被封。定...