V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
mytry
V2EX  ›  程序员

有哪些推荐的浏览器级爬虫工具/框架/平台?

  •  1
     
  •   mytry · Nov 26, 2018 · 2545 views
    This topic created in 2709 days ago, the information mentioned may be changed or developed.
    现在有些网站的数据都是前端动态生成的,用传统爬接口的方式很难获取,只能通过浏览器级的自动化工具,先对页面进行渲染然后再获取数据。

    目前主流的工具,除了 PhantomJS、WebDriver、Puppeteer 还有哪些?

    有些网站为了保护数据,需要有用户行为才能进一步渲染数据,所以还需要模拟真实的用户行为。不知现在是否有比较成熟的模拟行为的爬虫平台(收费也可以)?
    3 replies    2018-11-26 18:55:33 +08:00
    flybird
        1
    flybird  
       Nov 26, 2018
    要啥自行车? Puppeteer 已经是目前为止爬虫辅助的最牛逼的工具了!
    myhot21
        2
    myhot21  
       Nov 26, 2018 via Android
    用 selenium+代理 ip,目前除了因为复杂验证码原因外,还未遇到过不能抓取的网站。
    1010543618
        3
    1010543618  
       Nov 26, 2018
    PhantomJS 都不更新了吧,感觉还是得靠 FF,Chrome 的无界面模式
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   6200 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 51ms · UTC 02:38 · PVG 10:38 · LAX 19:38 · JFK 22:38
    ♥ Do have faith in what you're doing.