浏览器书签收藏很多网址,收藏的都是对自己很有价值的资料或一些好玩的东西。。
一些大网站都会关站或被和谐,遑论一些小站。Internet Archivey 这种也不一定会收藏特定的网页
以前自己想过一下方法:
1.对于静态页面直接把 html,css 爬下来,但这回造成文件过多,很多网站引用一大堆 css,这对与动态渲染的也解决不了,百度的那个快照感觉就是这样
2.写代码靠 selenium 操作浏览器保存 pdf,这方面感觉技术很难,自己只到自动打开浏览器打印 pdf,保存文件和打印参数还得写脚本,感觉很复杂
这东西肯定有工具了把,有没有推荐