上期主要介绍了,怎么抓取 js 生成的页面。

本期主要,讲一些爬与反爬的一些技巧。


  • 先说发爬:

怎么判断 是爬虫?

通过分析日志 每ip 访问频率、user-agent、cookie, request是否执行了 js、等等。来判断用户是人还是机器。当然,还可以让用户输入逆天的图片验证码。

可以部署 kibana 来分析日志。


完全反爬也只能拔了网线。所谓,《三体》中的黑狱。反爬主要还是让爬虫消耗更多的资源,更高的时间成本。


  • 接下来说爬:

了解了些反爬的知识,我们就能采取一些措施。 找代理换不停更换IP、使用随机 user-agent、伪造 cookie、通过 pil,opencv,来识别 图片验证码。(不过逆天图片验证码还是无解)。。

>>这里有个 scrapy 随机生成 user-agent 的插件 scrapy-random-useragent 有兴趣的童鞋可以试试看

降低抓取频率,尽量模拟真实用户。

把对方网站爬宕机,这种损人不利己事,还是不要做。


项目源代码