V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
gaocegege
V2EX  ›  程序员

求一个面向非码农的爬虫入门 Tutorial

  •  
  •   gaocegege ·
    gaocegege · Feb 10, 2016 · 6535 views
    This topic created in 3728 days ago, the information mentioned may be changed or developed.
    最近身边好多法学啊,经济的同学问能不能学习一下爬虫的姿势,这样以后搜集资料就不需要老是复制粘贴这样的体力劳动了。于是就想来看看有木有符合这样需求的 tutorial ,大家可以 share 一下呢~
    26 replies    2016-02-16 14:59:06 +08:00
    GG668v26Fd55CP5W
        1
    GG668v26Fd55CP5W  
       Feb 10, 2016 via iPhone
    自己做个爬虫系统,教他们写正则表达式
    xcodebuild
        2
    xcodebuild  
       Feb 10, 2016
    @falcon05 正则表达式不适合处理爬下来的 HTML
    wdlth
        3
    wdlth  
       Feb 10, 2016
    可以试试 XPath
    gamexg
        4
    gamexg  
       Feb 10, 2016
    那么用 xpath ,有浏览器插件可以自动生成 xpath 表达式。
    但是还是需要正则或* ? 做一些提取。
    gaocegege
        5
    gaocegege  
    OP
       Feb 10, 2016
    正则还是 Xpath ,都是需要教才能用的嘛,有什么教不会写代码的人用这样的技术的文档么 0;0
    总不能来一个,教一个吧
    WildCat
        6
    WildCat  
       Feb 10, 2016 via iPhone
    pyquery 比较适合?
    fengxiang
        7
    fengxiang  
       Feb 10, 2016 via Android
    直接用火车头得了
    XadillaX
        8
    XadillaX  
       Feb 10, 2016 via Android
    nodejs + cheerio
    scarlex
        9
    scarlex  
       Feb 10, 2016
    试试 Nightmare.js
    ericls
        10
    ericls  
       Feb 10, 2016   ❤️ 1
    https://segmentfault.com/a/1190000002544142
    写过一篇 面对入门的
    ammzen
        11
    ammzen  
       Feb 10, 2016
    看楼主说到那些同学搜集资料时就不用老是复制粘贴的抱怨,我觉得他们需要的可能不是爬虫,而是快捷保存资料的工具。
    Evernote 插件用好,完全可以保存重点内容与出处( URL )。
    要么就去找选中即保存的那种工具,浏览完网页后,重要的东西都已经存下来了。
    zog
        12
    zog  
       Feb 10, 2016
    我推荐你用 wget 这个命令行工具. 普通爬取工作都可以胜任. 非程序员编写爬虫很难. 爬虫是个很大很大的话题.
    Tink
        13
    Tink  
    PRO
       Feb 10, 2016
    其实主要还是要教他们处理 js 生成的内容
    Jimrussell
        14
    Jimrussell  
       Feb 10, 2016 via Android
    好的回答总是简单的,比如 7 楼。再加个按键精灵好了。
    imn1
        15
    imn1  
       Feb 10, 2016
    你需要搞清楚需求,你确定他们真的需要一个爬虫么?
    他们可能更需要的是一个后台获取文档、前台截取主要部分(去除无关内容)的工具
    个人觉得他们对文字阅读还是有必要的,但爬虫往往却是忽略“阅读”
    可能一个离线浏览器+笔记类工具会更合适,文章采集器可能合适,不过我不太了解

    同质(指 HTML 结构)少于 1000 都无必要学习爬虫,成本更高
    先弄清需求吧
    Exin
        16
    Exin  
       Feb 10, 2016 via iPhone
    仔细想了想,我认为他们还是高估了爬虫的能力。也许他们只是需要 Google 提高搜索效率。
    chemzqm
        17
    chemzqm  
       Feb 10, 2016
    学校里论文系统不一定是基于 http 的,渲染也未必是基于 html 。
    就算是 html 页面抓出来格式化,选取段落才是真正麻烦的地方
    C0VN
        18
    C0VN  
       Feb 10, 2016
    lemonda
        19
    lemonda  
       Feb 10, 2016
    @xavierskip
    是这个么?
    import.io
    kslr
        20
    kslr  
       Feb 10, 2016 via Android
    雇佣我
    C0VN
        21
    C0VN  
       Feb 10, 2016   ❤️ 1
    @lemonda 找到了!是 kimono https://www.kimonolabs.com/
    sadscv
        22
    sadscv  
       Feb 10, 2016
    @xavierskip 这个好 、完全图形化界面。
    zacks
        23
    zacks  
       Feb 10, 2016
    同样推荐 pyspider 。可以通过点击网页或者代码进行爬虫。
    ctrainr
        24
    ctrainr  
       Feb 10, 2016   ❤️ 1
    国内:火车头 八爪鱼;国外 import.io kimono visualscraper datascraping.co parsehub mozenda
    wizardforcel
        25
    wizardforcel  
       Feb 10, 2016
    我现在用 node+cheerio ,但是也得懂选择器,它比起 xpath 来说对程序员更友好一点,但是对于非程序员来说还是天坑。

    唯一的办法就是做个自动化的工具给他们。
    C0VN
        26
    C0VN  
       Feb 16, 2016
    kimono 要关闭他的公共服务了 https://www.kimonolabs.com/


    xpath 可以直接在 chrome 浏览器检查元素直接获取, css 选择器或者 xpath 随便生成。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2750 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 84ms · UTC 00:03 · PVG 08:03 · LAX 17:03 · JFK 20:03
    ♥ Do have faith in what you're doing.