V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
CEBBCAT

[草稿]想给自己写一个爬虫,功能是将爱打 "mark" 的坛友 ID 导出成列表。请问跑起来对 V2 压力大吗?

  •  
  •   CEBBCAT · Nov 20, 2018 · 454 views
    This topic created in 2716 days ago, the information mentioned may be changed or developed.
    ### **背景**:
    
    最近几天回复列表总是见到有人回复 "mark" / "战略性 mark"。在我看来,这样既没有践行 "让回复对别人有帮助",也扰乱别人看帖,毕竟有收藏可用。
    
    ### **我想**:
    
    我想写一个爬虫,把内容简单的 "mark"er 挑选出来,人工查看回复历史决定是否要 Block 这个用户
    
    ### **想问**:
    
    - 对 V2EX 的服务器压力不大吧?  
    我将不带有 cookie 爬取,因为我这个爬虫门外汉觉得带了 cookie 会让降低 CDN 的作用,使后台运算量增大
    -
    
    ### **爬虫机制简述**:
    
    最早处理 20181101 的帖子:  
            每帖在发布( 5 日,30 日,180 日)后进行一次回溯:  
            	对每一层回复来说:
    
    3 replies    2019-05-31 22:43:24 +08:00
    skyqqcc
        1
    skyqqcc  
       Nov 22, 2018 via Android
    看完了,没看懂....🙃🙃🙃
    CEBBCAT
        2
    CEBBCAT  
    OP
       Nov 22, 2018 via Android
    @skyqqcc 嘻嘻,还是草稿
    sdtfll
        3
    sdtfll  
       May 31, 2019 via Android
    不管压力大不大,你总会要遍历所有的贴,
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4057 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 05:10 · PVG 13:10 · LAX 22:10 · JFK 01:10
    ♥ Do have faith in what you're doing.