pzhdfy's recent timeline updates
pzhdfy

pzhdfy

🏢  快手 / 大数据架构师
V2EX member #86161, joined on 2014-12-11 11:20:38 +08:00
hadoop生态开源贡献者
pzhdfy's recent replies
这不是大数据经典处理方法吗

将 PersonListA.csv 通过 name hash 拆分为 10 个,PersonListA_1.csv,PersonListA_2.csv...,PersonListA_10.csv (或者更多,每个文件能载入内存就行)
规则是每行数据通过 hash(name)%10 来确定放到哪个文件

将 PersonListB.csv 也是一样的原理,生成 PersonListB_1.csv,PersonListB_2.csv...,PersonListB_10.csv

这样 PersonListA_1.csv 只会根 PersonListB_1.csv 有相同 name 的数据,
所以只需要 10 组文件对比就行
Oct 12, 2023
Replied to a topic by pzhdfy iCloud 国区 icloud 2T+music 拼车(年/半年/季付)
满了
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5932 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 112ms · UTC 03:02 · PVG 11:02 · LAX 20:02 · JFK 23:02
♥ Do have faith in what you're doing.