T 级别的 RDD 正确数据聚合的姿势？ - V2EX

Home Sign Up Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 2702 days ago, the information mentioned may be changed or developed.

JavaPairRDD<String, Map<String, String>> 结构的 RDD，input data 约在 1T 作用，使用常规的 reducebykey 的 excutor 内存会不够，目前，spark.executor.memory 设置的 4G，准备继续往上加到 8G 再试，这种情况下除了加 executor.memory 还有其他有效解决方式吗？小弟 spark 菜鸡，希望各位大佬给点指导。

8 replies • 2019-03-05 16:30:01 +08:00

1

decken

Mar 4, 2019

内存不够时间来凑可以用 reparation 将数据分成更多分区

2

ijk0

Mar 4, 2019

增加 executer 数

3

bsidb

Mar 4, 2019

用 Spark 的 DataFrame 的 API 来完成聚合操作。DataFrame API 在处理超大规模数据时，性能比 RDD 的 reduceByKey 高非常多。

4

sampeng

Mar 4, 2019 via iPhone

你这个怎么感觉就跟 500m 内存怎么分析一个 T 数据一个故事呢…内存不够时间来凑…

5

p2pCoder

OP

Mar 4, 2019 via Android

@sampeng
@ijk0
executor 1000

6

p2pCoder

OP

Mar 4, 2019 via Android

@sampeng
@ijk0
输错了 100

7

burby

Mar 4, 2019 via iPad

google bigquery

8

ijk0

Mar 5, 2019

@p2pCoder 可以配置动态增加 executor 数（设置一个上限比如 500 ），executor 4g 也不算少了；另外注意下是不是有数据倾斜

About · Help · Advertise · Blog · API · FAQ · Solana · 4539 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 31ms · UTC 04:08 · PVG 12:08 · LAX 21:08 · JFK 00:08
♥ Do have faith in what you're doing.