qw7692336
V2EX  ›  问与答

爬虫应该用什么数据库存储?

  •  
  •   qw7692336 · Jul 24, 2015 · 3348 views
    This topic created in 3973 days ago, the information mentioned may be changed or developed.

    我以前队列是直接在内存里,程序停了又要重头开始。。。。
    所以队列应该保存在数据库当中会好一点

    13 replies    2015-07-24 21:28:06 +08:00
    demoslam
        1
    demoslam  
       Jul 24, 2015
    看需求,正常爬虫存的数据库可以随便选。inverted index的存储可能要额外考虑其他的数据库
    itfanr
        2
    itfanr  
       Jul 24, 2015 via Android   ❤️ 2
    leveldb rocksdb
    shoumu
        3
    shoumu  
       Jul 24, 2015
    想用什么数据库就用什么数据库,等数据库性能遇到瓶颈了还能学学数据库的东西
    Comdex
        4
    Comdex  
       Jul 24, 2015
    redis/mongodb
    qw7692336
        5
    qw7692336  
    OP
       Jul 24, 2015
    @Comdex
    redis和mongodb分别怎么用?
    mcwanderer
        6
    mcwanderer  
       Jul 24, 2015
    mongodb
    qw7692336
        7
    qw7692336  
    OP
       Jul 24, 2015
    @mcwanderer
    不说原因的都是耍流氓
    Comdex
        8
    Comdex  
       Jul 24, 2015
    @qw7692336 可以上 http://w3cschool.cc看看菜鸟教程
    qw7692336
        9
    qw7692336  
    OP
       Jul 24, 2015
    @Comdex
    用在什么地方?分别存储什么?
    zjq426
        10
    zjq426  
       Jul 24, 2015
    爬和解析分开,爬下来的rawdata直接存文件不好吗。。。
    bengtuo
        11
    bengtuo  
       Jul 24, 2015
    直接存文件
    qw7692336
        12
    qw7692336  
    OP
       Jul 24, 2015
    @zjq426
    @bengtuo
    那怎么判断重复数据,就是一个数据,之前可以已经爬过了
    ksupertu
        13
    ksupertu  
       Jul 24, 2015
    @qw7692336 bloomfilter
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   927 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 59ms · UTC 20:47 · PVG 04:47 · LAX 13:47 · JFK 16:47
    ♥ Do have faith in what you're doing.