您的位置:首页 >资讯列表 > 正文
发布时间:2020-06-01 15:28
目前常用的反爬虫措施有哪些

  爬虫工作的过程,就是与反爬虫作斗争的过程,可以这样说,没有遇到反爬的工程师,不是好的爬虫工程师。有很多问题我们经常遇到,今天就来简单说几个常见的反爬策略。



  一、爬取某网站时,提示“由于访问频繁,需要通过验证码才能访问页面”


  解决方法:网站通过用户的Cookie信息对用户进行识别与分析,所以要防止目标网站识别我们的会话信息。


  在Scrapy中,我们可以在爬虫项目的setting.py文件中进行设置,将setting.py中的下面两行代码里的“COOKIES_ENABLED=False”的注释去掉即可。


  二、爬取过快也会遭到封杀,设置下载延时


  部分网站通过分析我们的爬取频率对爬虫进行禁止或限制,所以我们需要控制爬取时间间隔。在Scrapy中同样是在setting.py文件中进行设置。我们可以设置随机间隔时间,这样就毫无规律,不容易被发现。


  三、设置用户代理池


  不管爬虫策略和反反爬虫策略做的多么的好,还是必须要用到代理IP,没有代理IP,只能玩玩泥巴,寸步难行。如何搭建代理池呢?方法有很多,最直接最省力的方法就是购买代理IP,比如飞猪爬虫代理IP平台提供的动态高质量代理,是个不错的选择。


上一篇 使用代理ip网速会变快吗 下一篇 让爬虫更简单的使用代理IP