情景:针对目标网站内容,写了特定的爬虫脚本,爬取规则是通过正则之类的字符串匹配,比较得到的
问题:如果目标网站更改了前端代码,还要重新分析改写脚本规则,这些规则都是硬编码到脚本中的,有没有优雅高效的方法来管理规则,做到规则与脚本逻辑分离 或者是否有其它好的的爬法?
另外如果有相关可参考的开源代码麻烦贴一下地址 :)
问题:如果目标网站更改了前端代码,还要重新分析改写脚本规则,这些规则都是硬编码到脚本中的,有没有优雅高效的方法来管理规则,做到规则与脚本逻辑分离 或者是否有其它好的的爬法?
另外如果有相关可参考的开源代码麻烦贴一下地址 :)