推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
201341
V2EX  ›  Python

scrapy 爬取知乎内容,发现获取的和原网页不一样啊,请问这是什么原因?

  •  
  •   201341 · Apr 5, 2017 · 5729 views
    This topic created in 3363 days ago, the information mentioned may be changed or developed.
    新手刚开始学习. https://segmentfault.com/q/1010000008939688 这里有详细描述.谢谢.
    Supplement 1  ·  Apr 6, 2017
    此贴终结,谢谢大家热情帮助.
    15 replies    2017-04-06 13:18:20 +08:00
    cosmic
        1
    cosmic  
       Apr 5, 2017
    这是反爬策略吧
    201341
        2
    201341  
    OP
       Apr 5, 2017
    @cosmic 用到什么策略,可以详细说说吗?还有如何解决呢?谢谢.
    sleeperqp
        3
    sleeperqp  
       Apr 5, 2017
    你可以用 chromedrive 试试 如果还是不一样 那就说明确实有反爬的问题~
    zsz
        4
    zsz  
       Apr 5, 2017 via iPhone
    可能是页面异步获取了其他内容,所以直接抓取看不到,其中策略比较多

    有问题可以加我们的群问,这样效率更高,这个群是一群工程师组建的面向初学者的 python Linux 学习群( qq 群号: 278529278 ) 非商业性质,拒绝广告,只接收真正想学这方面技术的朋友,交流学习,申请请说明来自 v2ex
    we3613040
        5
    we3613040  
       Apr 5, 2017
    好多异步请求
    201341
        6
    201341  
    OP
       Apr 5, 2017
    我也以为是异步,可是禁用 js 后的页面和我获取的页面还是不一样
    201341
        7
    201341  
    OP
       Apr 5, 2017
    201341
        8
    201341  
    OP
       Apr 5, 2017
    @sleeperqp 好的,我试试..谢谢.
    googlebot
        9
    googlebot  
       Apr 5, 2017 via Android
    javascript ,
    fffflyfish
        10
    fffflyfish  
       Apr 5, 2017
    直接抓现成的 json 包,伪装客户端发包
    killerv
        11
    killerv  
       Apr 6, 2017
    你说的原网页是指的网页源代码还是审查元素?审查元素的代码是经过 js 渲染过的,不一样是很正常的,这个要以网页源代码的为标准,如果网页源代码和爬虫爬的不一样,另说,有可能是防爬。
    201341
        12
    201341  
    OP
       Apr 6, 2017
    @killerv 网页源代码不一样...主要是一个 css 文件不一样,结果导致我写的 xpath 和 response.css 全部为空...这种是防爬吗?
    killerv
        13
    killerv  
       Apr 6, 2017
    @201341 应该是防爬了,防爬一般来就是根据 header 和 cookie 下文章,再有就是根据 ip 频率
    201341
        14
    201341  
    OP
       Apr 6, 2017
    @killerv 不是防爬,还是 js 问题,我用 selenium+Phantomjs 成功解决.
    killerv
        15
    killerv  
       Apr 6, 2017
    @201341 如果是 js 问题,那么网页源代码和你抓取的应该是一样的,你用 Phantomjs ,还是因为有些 dom 是 js 动态生成的。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2632 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 43ms · UTC 09:22 · PVG 17:22 · LAX 02:22 · JFK 05:22
    ♥ Do have faith in what you're doing.