• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Andy1999
V2EX  ›  程序员

400M 的数据库, 1 亿 9 千行用什么索引比较好

  •  
  •   Andy1999 · Apr 4, 2016 via iPhone · 15731 views
    This topic created in 3717 days ago, the information mentioned may be changed or developed.
    直接 TXT 按照 hash 划分可以嘛?
    Supplement 1  ·  Apr 5, 2016
    V2EX 变贴吧?
    要 400M 没有 自己整理吧
    TG 群 https://telegram.me/joinchat/BICsbj5LZUyME9yGJqR0hA
    116 replies    2016-06-27 07:02:18 +08:00
    1  2  
    moeeducn
        101
    moeeducn  
       Apr 5, 2016 via iPad
    [email protected] ,请楼主好心分享一份
    hongcha
        102
    hongcha  
       Apr 5, 2016
    同 es 楼主好人 [email protected]
    xngnln
        103
    xngnln  
       Apr 5, 2016
    同求,楼主好人, [email protected]
    BooksE
        104
    BooksE  
       Apr 5, 2016
    lz 好人。
    [email protected]
    gancl
        105
    gancl  
       Apr 5, 2016
    这是求种吗? 为什么都留 email
    keysona
        106
    keysona  
       Apr 5, 2016
    楼主来一份学习
    [email protected]
    谢谢了!
    cstj0505
        107
    cstj0505  
       Apr 5, 2016
    lz 好人,同求一份 tonytao0505@outlookcom
    thisisvoa
        108
    thisisvoa  
       Apr 5, 2016
    lz 好人,同求一份 [email protected] @_@
    dphdjy
        109
    dphdjy  
       Apr 5, 2016 via Android
    话说楼上那么要数据的人?要来干嘛?既然没正规用途?为何要要?只是留以备用吗~¯\_( •́ω•̀ )_/¯
    xlrtx
        110
    xlrtx  
       Apr 5, 2016
    100M 条, 400M 字节..是不是多看了一个零
    https://transfer.sh/yqU6x/adddb.py
    3dwelcome
        111
    3dwelcome  
       Apr 5, 2016 via Android
    @xlrtx
    我们也下了资源、一般来说、纯文本 400m,数据量在 1900 万条是合理范围。也许楼主用的是压缩过的特殊格式。
    3dwelcome
        112
    3dwelcome  
       Apr 5, 2016 via Android
    对了、我们是按照首字符分组、然后去重复排序、用二分查找的、效率还行。不过数据量要大不少、 400m 应该是很强的压缩技术了。
    Andy1999
        113
    Andy1999  
    OP
       Apr 5, 2016 via iPhone
    @3dwelcome 我去密码了
    Braid
        114
    Braid  
       Apr 6, 2016
    多谢楼主,建议看看 http://www.coreseek.cn/,我打算用这个测试下你的 400M 数据
    276562578
        115
    276562578  
       Apr 7, 2016
    @Andy1999 想知道你是怎么去重的?用 sort 么?
    northisland
        116
    northisland  
       Jun 27, 2016
    一直怀疑字符串 hash 会占额外的空间,但一直没摸到 hash 的瓶颈。

    曾经用 python hash 索引过 20m 数量的文件名,木有问题~~

    楼主 100m ,能给个反馈么?
    1  2  
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1087 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 58ms · UTC 22:59 · PVG 06:59 · LAX 15:59 · JFK 18:59
    ♥ Do have faith in what you're doing.