直接 TXT 按照 hash 划分可以嘛?
101
moeeducn Apr 5, 2016 via iPad
[email protected] ,请楼主好心分享一份
|
102
hongcha Apr 5, 2016
同 es 楼主好人 [email protected]
|
103
xngnln Apr 5, 2016
同求,楼主好人, [email protected]
|
104
BooksE Apr 5, 2016
lz 好人。
[email protected] |
105
gancl Apr 5, 2016
这是求种吗? 为什么都留 email
|
106
keysona Apr 5, 2016
|
107
cstj0505 Apr 5, 2016
lz 好人,同求一份 tonytao0505@outlookcom
|
108
thisisvoa Apr 5, 2016
lz 好人,同求一份 [email protected] @_@
|
109
dphdjy Apr 5, 2016 via Android
话说楼上那么要数据的人?要来干嘛?既然没正规用途?为何要要?只是留以备用吗~¯\_( •́ω•̀ )_/¯
|
110
xlrtx Apr 5, 2016
100M 条, 400M 字节..是不是多看了一个零
https://transfer.sh/yqU6x/adddb.py |
111
3dwelcome Apr 5, 2016 via Android
@xlrtx
我们也下了资源、一般来说、纯文本 400m,数据量在 1900 万条是合理范围。也许楼主用的是压缩过的特殊格式。 |
112
3dwelcome Apr 5, 2016 via Android
对了、我们是按照首字符分组、然后去重复排序、用二分查找的、效率还行。不过数据量要大不少、 400m 应该是很强的压缩技术了。
|
114
Braid Apr 6, 2016
多谢楼主,建议看看 http://www.coreseek.cn/,我打算用这个测试下你的 400M 数据
|
116
northisland Jun 27, 2016
一直怀疑字符串 hash 会占额外的空间,但一直没摸到 hash 的瓶颈。
曾经用 python hash 索引过 20m 数量的文件名,木有问题~~ 楼主 100m ,能给个反馈么? |