目前常用的反爬虫措施有哪些-飞猪http

您的位置：首页 >资讯列表 > 正文

发布时间：2020-06-01 15:28

目前常用的反爬虫措施有哪些

　　爬虫工作的过程，就是与反爬虫作斗争的过程，可以这样说，没有遇到反爬的工程师，不是好的爬虫工程师。有很多问题我们经常遇到，今天就来简单说几个常见的反爬策略。

　　一、爬取某网站时，提示“由于访问频繁，需要通过验证码才能访问页面”

　　解决方法：网站通过用户的Cookie信息对用户进行识别与分析，所以要防止目标网站识别我们的会话信息。

　　在Scrapy中，我们可以在爬虫项目的setting.py文件中进行设置，将setting.py中的下面两行代码里的“COOKIES_ENABLED=False”的注释去掉即可。

　　二、爬取过快也会遭到封杀，设置下载延时

　　部分网站通过分析我们的爬取频率对爬虫进行禁止或限制，所以我们需要控制爬取时间间隔。在Scrapy中同样是在setting.py文件中进行设置。我们可以设置随机间隔时间，这样就毫无规律，不容易被发现。

　　三、设置用户代理池

　　不管爬虫策略和反反爬虫策略做的多么的好，还是必须要用到代理IP，没有代理IP，只能玩玩泥巴，寸步难行。如何搭建代理池呢?方法有很多，最直接最省力的方法就是购买代理IP，比如飞猪爬虫代理IP平台提供的动态高质量代理，是个不错的选择。