您的位置:首页 >资讯列表 > 正文
发布时间:2020-05-13 15:48
怎么搭建爬虫代理ip池

  应该不少人都看过很多搭建代理ip池的文章,然后发现都是坑,无法使用。绝大部分,在你搭建好以后,发现爬虫还是爬不动,免费代理ip根本无法使用的好伐!稍微好点haipproxy,也用过,但是不解决根本问题!绝大部分ip失效太快了!而且各种错误。


u=3206713989,1120248439&fm=26&gp=0.jpg


  如果不想花钱,那么就只能自己找到稳定的代理ip,然后来使用。而一般的代理池,都是拿百度、知乎阿、豆瓣阿啥的网址访问,成了说明能用,不成就是失败。最多加个分值计算什么的。之前看了下haipproxy的代码,成功率高就得自己写验证,说白了,在爬虫使用之前,先尝试访问下,来提高成功率,。


  以下才是主要的其实免费代理ip中,有极少数的一部分,是非常稳定的代理服务器,所以这些服务器就可以长期用来使用。抓取到的免费的代理ip,中,过滤后剩下的ip的访问成功率基本在90%+


  第一、其实最简单的方式就是根据服务器开放的端口来判断,如果服务器有开放80,3389,3306,22之类的端口,那么说明服务器还有别的服务在运行,挂掉的几率很小,如果是政府、学校的服务器,那么更加稳定。当然也有可能开放别的端口


  第二、服务器的访问速度判断,需要访问多个不同的网址,来取平均数,这样的访问速度才比较稳


  第三、代理ip的存活时间,越长越稳定,当然这个是在你搭建抓取后,来进行计算。


  第四、代理类型的重新检测,通过访问不同的http和https网站,判断代理到底是http还是https,并且进行划分,http的代理,那就访问http网址的时候使用,https的代理给https访问提供服务,这样访问的几率才能提高。


上一篇 选爬虫代理IP技巧 下一篇 HTTPS和HTTP代理的使用区别