上期主要介绍了，怎么抓取 js 生成的页面。

本期主要，讲一些爬与反爬的一些技巧。

---

 ### 先说反爬：

怎么判断 是爬虫？

通过分析日志 每ip 访问频率、user-agent、cookie， request是否执行了
js、等等。来判断用户是人还是机器。当然，还可以让用户输入逆天的图片验证码。

可以部署 [kibana](https://www.elastic.co/products/kibana) 来分析日志。


完全反爬也只能拔了网线。所谓，《三体》中的黑狱。反爬主要还是让爬虫消耗更多的资源，更高的时间成本。

---

### 接下来说爬：

了解了些反爬的知识，我们就能采取一些措施。 找代理换不停更换IP、使用随机 user-agent、伪造 cookie、通过 pil，opencv，来识别
图片验证码。（不过逆天图片验证码还是无解）。。

&gt;&gt;这里有个 scrapy 随机生成 user-agent 的插件 [scrapy-random-
useragent](https://github.com/cnu/scrapy-random-useragent) 有兴趣的童鞋可以试试看

降低抓取频率，尽量模拟真实用户。

把对方网站爬宕机，这种损人不利己事，还是不要做。

---

[项目源代码](https://github.com/edison7500/andromeda)

scrapy 实战（五）爬与反爬

先说反爬：

接下来说爬：