pzhdfy's recent timeline updates

pzhdfy

🏢 快手 / 大数据架构师

V2EX member #86161, joined on 2014-12-11 11:20:38 +08:00

Today's activity rank 24697

北京 GitHub

pzhdfy

hadoop生态开源贡献者

pzhdfy 提问技术话题好玩工作信息交易信息城市相关

国区 icloud 2T+music 拼车（年/半年/季付）最后一个车位

拼车 • pzhdfy • May 13, 2025

chrome 浏览 v2ex, 关闭从列表页点开的新标签页，结果同时关闭新标签页和列表页

问与答 • pzhdfy • Dec 2, 2024

office 365 拼车 ,到期 2027/07/14, 一年 50，两年 80，最后一个车位

拼车 • pzhdfy • Aug 30, 2024

office 365 拼车 ,到期 2027/07/14, 一年 50，两年 80

二手交易 • pzhdfy • Aug 28, 2024

国区 icloud 2T+music 拼车（年/半年/季付）

iCloud • pzhdfy • Oct 12, 2023 • Lastly replied by pzhdfy

office 365 拼车 40/人/年，到期 2022/07/14,可 1 年可 2 年

二手交易 • pzhdfy • Jul 16, 2020 • Lastly replied by softliumin110

[北京] 快手大数据架构团队急招（欢迎热衷技术，参与开源的小伙伴）

酷工作 • pzhdfy • Oct 30, 2019 • Lastly replied by pzhdfy

[北京] 快手大数据架构团队持续招人（欢迎热衷技术，开源的小伙伴）

酷工作 • pzhdfy • May 25, 2019 • Lastly replied by ffbh

» More topics by pzhdfy

pzhdfy's recent replies

Feb 18, 2024

Replied to a topic by FeifeiJin › 程序员 › 超大型文件比较，内存不足，只能分页读区再匹配，但头都秃了，也没想到优化的方式，朋友们帮帮忙啊。

这不是大数据经典处理方法吗

将 PersonListA.csv 通过 name hash 拆分为 10 个，PersonListA_1.csv,PersonListA_2.csv...,PersonListA_10.csv （或者更多，每个文件能载入内存就行）
规则是每行数据通过 hash(name)%10 来确定放到哪个文件

将 PersonListB.csv 也是一样的原理，生成 PersonListB_1.csv,PersonListB_2.csv...,PersonListB_10.csv

这样 PersonListA_1.csv 只会根 PersonListB_1.csv 有相同 name 的数据，
所以只需要 10 组文件对比就行

Oct 12, 2023

Replied to a topic by pzhdfy › iCloud › 国区 icloud 2T+music 拼车（年/半年/季付）

满了

» More replies by pzhdfy