当爬虫时遇到IP和访问时间间隔限制,我们该如何处理
时间:2021-06-16 11:45:21
来源:兔子IP
爬虫和反爬虫本身就是对抗性质的,没有万能的方法,但爬取有一条是不变的,爬取的核心策略是模拟真实用户的访问,因为反爬策略不可能想把真实用户都屏蔽。
而真实的用户:访问间隔肯定不会一秒钟很多次;用户的浏览器,可能五花八门;用户的IP地址可能遍布五湖四海;访问的时间也是有一定规律的;还有用户的浏览轨迹等等,
都有一定的规律。我们要做的,就是模拟这些真实用户的访问。
具体建议如下:
首先尝试限制自己的爬取间隔,把自己当成普通用户,模拟普通的访问间隔。
可以尝试修改自己的UserAgent,找一批常用浏览器的UseAgent列表,按一定策略从中选择。
最后,也是重点:用ip代理,代理分很多种,有透明代理、匿名代理、高匿代理等,用高匿代理,前两种还是会暴露自己。网上很多免费的代理,但免费代理基本上全军覆没。
那就买代理,现在很多代理池都很便宜。比如兔子加速就可以。
代理很好用,但也不要全部依赖于代理,其他方面处理不好,代理也会很快被封。要从各个角度综合考虑,否则买来的代理,也不能充分发挥它的潜力。