特牛网址导航

反反爬虫|应对网站反爬虫策略,更高效地爬大量数据_做了抵御跨站脚本攻击,爬虫还能爬到资源吗-CSDN博客

网友收藏
文章浏览阅读4.3k次。1.Headers限制这应该是最常见的,最基本的反爬虫手段,主要是初步判断你是否是真实的浏览器在操作。这个一般很好解决,把浏览器中的Headers信息复制上去就OK了。值得注意的是,很多网站只需要userAgent信息就可以通过,但是有的网站还需要验证一些其他的信息,比如知乎,有一些页面还需要 authorization 的信息。所以需要加哪些Headers,还需要尝试,可能还需要Referer、A_做了抵御跨站脚本攻击,爬虫还能爬到资源吗