当爬虫时遇到IP和访问时间间隔限制，我们该如何处理

时间：2021-06-16 11:45:21 来源：兔子IP

爬虫和反爬虫本身就是对抗性质的，没有万能的方法，但爬取有一条是不变的，爬取的核心策略是模拟真实用户的访问，因为反爬策略不可能想把真实用户都屏蔽。

　　而真实的用户：访问间隔肯定不会一秒钟很多次;用户的浏览器，可能五花八门;用户的IP地址可能遍布五湖四海;访问的时间也是有一定规律的;还有用户的浏览轨迹等等，

都有一定的规律。我们要做的，就是模拟这些真实用户的访问。

　　具体建议如下：

　　首先尝试限制自己的爬取间隔，把自己当成普通用户，模拟普通的访问间隔。

　　可以尝试修改自己的UserAgent,找一批常用浏览器的UseAgent列表，按一定策略从中选择。

　　最后，也是重点：用ip代理，代理分很多种，有透明代理、匿名代理、高匿代理等，用高匿代理，前两种还是会暴露自己。网上很多免费的代理，但免费代理基本上全军覆没。

那就买代理，现在很多代理池都很便宜。比如兔子加速就可以。

　　代理很好用，但也不要全部依赖于代理，其他方面处理不好，代理也会很快被封。要从各个角度综合考虑，否则买来的代理，也不能充分发挥它的潜力。