400M 的数据库， 1 亿 9 千行用什么索引比较好

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 3717 days ago, the information mentioned may be changed or developed.

直接 TXT 按照 hash 划分可以嘛？

Supplement 1 · Apr 5, 2016

V2EX 变贴吧？
要 400M 没有自己整理吧
TG 群 https://telegram.me/joinchat/BICsbj5LZUyME9yGJqR0hA

Hash

索引

txt

数据库

116 replies • 2016-06-27 07:02:18 +08:00

1 2

❮

❯

101

moeeducn

Apr 5, 2016 via iPad

[email protected] ，请楼主好心分享一份

102

hongcha

Apr 5, 2016

同 es 楼主好人 [email protected]

103

xngnln

Apr 5, 2016

同求，楼主好人， [email protected]

104

BooksE

Apr 5, 2016

lz 好人。
[email protected]

105

gancl

Apr 5, 2016

这是求种吗? 为什么都留 email

106

keysona

Apr 5, 2016

楼主来一份学习
[email protected]
谢谢了！

107

cstj0505

Apr 5, 2016

lz 好人，同求一份 tonytao0505@outlookcom

108

thisisvoa

Apr 5, 2016

lz 好人，同求一份 [email protected] @_@

109

dphdjy

Apr 5, 2016 via Android

话说楼上那么要数据的人？要来干嘛？既然没正规用途？为何要要？只是留以备用吗~¯\_( •́ω•̀ )_/¯

110

xlrtx

Apr 5, 2016

100M 条, 400M 字节..是不是多看了一个零
https://transfer.sh/yqU6x/adddb.py

111

3dwelcome

Apr 5, 2016 via Android

@xlrtx
我们也下了资源、一般来说、纯文本 400m,数据量在 1900 万条是合理范围。也许楼主用的是压缩过的特殊格式。

112

3dwelcome

Apr 5, 2016 via Android

对了、我们是按照首字符分组、然后去重复排序、用二分查找的、效率还行。不过数据量要大不少、 400m 应该是很强的压缩技术了。

113

Andy1999

Apr 5, 2016 via iPhone

@3dwelcome 我去密码了

114

Braid

Apr 6, 2016

多谢楼主，建议看看 http://www.coreseek.cn/，我打算用这个测试下你的 400M 数据

115

276562578

Apr 7, 2016

@Andy1999 想知道你是怎么去重的？用 sort 么？

116

northisland

Jun 27, 2016

一直怀疑字符串 hash 会占额外的空间，但一直没摸到 hash 的瓶颈。

曾经用 python hash 索引过 20m 数量的文件名，木有问题～～

楼主 100m ，能给个反馈么？

1 2

❮

❯