У меня есть два df
, df1
имеет 0,5 миллиарда строк, df2
имеет 70 миллионов, а df2
происходит от df1.groupByKey(col1).agg(countDistinct(col2))
, затем df3=df1.join(df2,Seq(col),'left')
и вставляется в
HBASE использовать df3.rdd.map(...).saveAsNewAPIHadoopDataset
.
Мой spark-submit params are: --num-exectours 12 --exectour-cores 2 --driver-memory 8G --exectour-meory 10G
.
Информация об ошибке ...OutOfMermory: Direct buffer Memory
в saveAsNewAPIHadoopDataset
.
Я понятия не имею, как использовать его после Google и пробовать много других методов, потому что мой DataFrame слишком большой? Но я использую df3.show
, данные точны, это лучший метод на saveAsNewAPIHadoopDataset