Вы можете контролировать количество выходных файлов в spark, используя repartition
и coalesce
. В mapreduce вы управляете выходными файлами по количеству редукторов, аналогично в spark вы можете указать разделы, и coalesce
dataRDD.repartition(2).saveAsTextFile("/user/cloudera/sqoop_import/orders_test")
, как показано в приведенной выше команде, сохранит данные в двух файлах, поскольку мы указали спецификацию раздела как 2
Вы можете взглянуть на этот ответ , это поможет вам понять