zarte
V2EX  ›  问与答

存储大量网页内容用什么数据库

  •  1
     
  •   zarte · Feb 3, 2019 · 2667 views
    This topic created in 2680 days ago, the information mentioned may be changed or developed.

    发觉之前的解决思路有问题,决定先爬取页面数据存入数据库,然后另外一个任务再一个页面一个页面分析内容提取数据。
    存储字段包括地址来源网站,页面文字内容。 目前用 mysql 加 redis 用来 url 去重

    Supplement 1  ·  Feb 3, 2019
    先按 1-3 楼的试试
    9 replies    2019-02-04 19:43:18 +08:00
    GeekCourse
        1
    GeekCourse  
       Feb 3, 2019 via Android
    当然是直接存到硬盘里
    jimages
        2
    jimages  
       Feb 3, 2019   ❤️ 1
    存文件吧,mysql 做 index
    yuikns
        3
    yuikns  
       Feb 3, 2019 via iPad   ❤️ 1
    大量文件存在一个目录下有时有效率问题。试试 leveldb ?
    lynskylate
        4
    lynskylate  
       Feb 3, 2019 via Android   ❤️ 1
    ...落硬盘怎么横向扩展,数据落 mongo, redis 去重。
    CSM
        5
    CSM  
       Feb 3, 2019 via Android
    如果 URL 非常多并且能容忍重复的话,可以考虑布隆过滤器。
    nicoljiang
        6
    nicoljiang  
    PRO
       Feb 4, 2019
    Mysql 不就可以吗,百万千万都能存。。。
    lengyihan
        7
    lengyihan  
       Feb 4, 2019 via Android
    oracle 肯定够。
    lynskylate
        8
    lynskylate  
       Feb 4, 2019 via Android   ❤️ 1
    @CSM 布隆不会出现重复,而是有部分未爬过的 url 会认为爬过。
    CSM
        9
    CSM  
       Feb 4, 2019 via Android
    @lynskylate 噢噢你说的对,感谢感谢
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2868 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 60ms · UTC 06:04 · PVG 14:04 · LAX 23:04 · JFK 02:04
    ♥ Do have faith in what you're doing.