从豆瓣旅行的事情想到的,有没有实际可行的放抓取方法呢?
我能想到的几点:
1.通过UA限制访问,不过UA很容易模拟绕过
2.在网页内容和结构上做混淆,比如打乱顺序,再通过js调整到顺序正常
3.从抓取频率上控制,基于Cookie和IP限制访问频率,可以利用Web Server的防攻击策略来做
4.频繁地,不规律地(不可预测)改变网页结构,增大抓取成本
因为没做过抓取,不知道是否实际可行,请大家提供建议。
我能想到的几点:
1.通过UA限制访问,不过UA很容易模拟绕过
2.在网页内容和结构上做混淆,比如打乱顺序,再通过js调整到顺序正常
3.从抓取频率上控制,基于Cookie和IP限制访问频率,可以利用Web Server的防攻击策略来做
4.频繁地,不规律地(不可预测)改变网页结构,增大抓取成本
因为没做过抓取,不知道是否实际可行,请大家提供建议。