goodboygru
V2EX  ›  问与答

有关 Jsoup 爬虫问题请假

  •  
  •   goodboygru · May 14, 2018 via Android · 1476 views
    This topic created in 2950 days ago, the information mentioned may be changed or developed.
    安卓新手,最近在尝试爬虫做一个 V2EX 客户端
    现在爬主题正文部分遇到一些困难
    1.在 markdown_body 这个类下面有 p,ol,h 等多种标签,应该如何按顺序爬下呢?
    2.之前用的 Gilde 爬取头像,主题内部正文的图片应该怎么爬取并加载到适当为止呢?
    谢谢大佬们
    4 replies    2018-05-14 15:33:06 +08:00
    elgae
        1
    elgae  
       May 14, 2018 via Android
    1. selector 或 xpath
    yanhejihe
        2
    yanhejihe  
       May 14, 2018
    这和爬虫有什么关系?
    1 我的处理方式是用一些正则来配合。jsoup 那块,需要利用好 class 来 filter,还有就是用好 text ()和 owntext ()。
    goodboygru
        3
    goodboygru  
    OP
       May 14, 2018 via Android
    @elgae 谢谢。
    goodboygru
        4
    goodboygru  
    OP
       May 14, 2018 via Android
    感谢
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1356 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 45ms · UTC 23:50 · PVG 07:50 · LAX 16:50 · JFK 19:50
    ♥ Do have faith in what you're doing.