Два Big Spark DataFrame присоединяются и сохраняют AsNewAPIHadoopDataset OOM - PullRequest
0 голосов
/ 05 сентября 2018

У меня есть два df, df1 имеет 0,5 миллиарда строк, df2 имеет 70 миллионов, а df2 происходит от df1.groupByKey(col1).agg(countDistinct(col2)), затем df3=df1.join(df2,Seq(col),'left') и вставляется в HBASE использовать df3.rdd.map(...).saveAsNewAPIHadoopDataset.

Мой spark-submit params are: --num-exectours 12 --exectour-cores 2 --driver-memory 8G --exectour-meory 10G.

Информация об ошибке ...OutOfMermory: Direct buffer Memory в saveAsNewAPIHadoopDataset.

Я понятия не имею, как использовать его после Google и пробовать много других методов, потому что мой DataFrame слишком большой? Но я использую df3.show, данные точны, это лучший метод на saveAsNewAPIHadoopDataset

...