V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
beverse
V2EX  ›  问与答

请教一个 Python 爬虫信息提取问题

  •  
  •   beverse · Jan 8, 2015 · 3211 views
    This topic created in 4126 days ago, the information mentioned may be changed or developed.

    最近在学写爬虫,聚合程序员的招聘信息,已经聚合了几个网站数据: http://www.codejob.me

    但在写智联招聘爬虫的时候,薪酬如'6001-8000'

    我的python代码:

    s = '6001-8000'
    if '-' in s:
        m = re.match(r'(.*?)-(.*?)', s)
        print m.group(1)
        print m.group(2)
    

    为什么m.group(1)成功得到6001,而m.group(2)得到的是空? 想请教一下大家了。

    5 replies    2015-01-08 16:39:24 +08:00
    mhycy
        1
    mhycy  
       Jan 8, 2015   ❤️ 2
    为何不用split?
    第二个匹配没匹配到,因为写的是'.*?' *可以为空?最小匹配,所以啥都没匹配到
    为何不写成:'([0-9]+)-([0-9]+)'
    cloudream
        2
    cloudream  
       Jan 8, 2015   ❤️ 1
    *? 懒惰量词能不匹配就不匹配,所以……
    beverse
        3
    beverse  
    OP
       Jan 8, 2015
    感谢@mhycy @cloudream

    可以 m = re.match(r'(\d+)-(\d+)', s)

    或者 s.split('-')
    beverse
        4
    beverse  
    OP
       Jan 8, 2015
    @cloudream 谢谢提醒!
    chizhong
        5
    chizhong  
       Jan 8, 2015   ❤️ 1
    越做越好了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   6086 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 45ms · UTC 02:07 · PVG 10:07 · LAX 19:07 · JFK 22:07
    ♥ Do have faith in what you're doing.