V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
catsky
V2EX  ›  问与答

2022 了 抓取交互网页结果的最佳方式是什么?

  •  
  •   catsky · Oct 9, 2022 · 1990 views
    This topic created in 1296 days ago, the information mentioned may be changed or developed.

    目标网页是一个网页表单,填入信息后出结果,看了下也没用 ajax 请求,要获取结果信息是不是一定要用 Selenium 这类模拟点击然后解析结果?

    比如 https://online.transport.wa.gov.au/webExternal/registration 输入 6666 获取结果页面的信息

    用 js 容易实现吗?请教各位高手

    8 replies    2022-10-09 17:24:28 +08:00
    crab
        1
    crab  
       Oct 9, 2022   ❤️ 1
    不需要模拟,首先访问提取出 jsessionid ,再 post 请求得到页面信息。
    catsky
        2
    catsky  
    OP
       Oct 9, 2022
    @crab 👍
    catsky
        3
    catsky  
    OP
       Oct 9, 2022
    但是这个网页用 postman 模拟发送 post 请求就过不去,一直提示 access denied , 我把 JSESSIONID 都放了也没用

    [https://rego.act.gov.au/regosoawicket/public/reg/FindRegistrationPage]( https://rego.act.gov.au/regosoawicket/public/reg/FindRegistrationPage)
    catsky
        4
    catsky  
    OP
       Oct 9, 2022
    ntdll
        5
    ntdll  
       Oct 9, 2022   ❤️ 1
    对效率要求不高的话,直接通过 devtools 一把梭上去自动化,只要浏览器能正常显示的,都能弄回来,退一步就是 headless ,但是 headless 有比较明显的特征,也有比较成熟的探测方案。两者速度上基本没太大区别。
    estk
        6
    estk  
       Oct 9, 2022 via Android
    如果只是为了数据,直接分析对方的 api 更高效
    inktiger
        7
    inktiger  
       Oct 9, 2022   ❤️ 1
    你这个页面我瞅了瞅,貌似直接 api 的方式不容易,第一个页面传参,是到后端组装了,写入 cookie 再返回详细页面,后续刷新也是靠 cookie 里的参数来维持页面内容,我估计只有 selenium 来处理了,用 selenium 关掉图形界面性能也还过得去,如果还觉得性能不行,那再试试 htmlunit 。
    catsky
        8
    catsky  
    OP
       Oct 9, 2022 via iPhone
    对的 很奇怪的页面渲染方式,要 js 模拟好像很难诶…. 目前挠头中….. https://rego.act.gov.au/regosoawicket/public/reg/FindRegistrationPage
    @inktiger
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5119 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 52ms · UTC 01:10 · PVG 09:10 · LAX 18:10 · JFK 21:10
    ♥ Do have faith in what you're doing.