Я запутался в том, как spark создает разделы в фрейме данных spark.Вот список шагов и размер раздела
i_df = sqlContext.read.json("json files") // num partitions returned is 4, total records 7000
p_df = sqlContext.read.format("csv").Other options // num partitions returned is 4 , total records: 120k
j_df = i_df.join(p_df, i_df.productId == p_df.product_id) // total records 7000, but num of partitions is 200
Первые два кадра данных имеют 4 раздела, но как только я присоединяюсь к ним, он показывает 200 разделов.Я ожидал, что после объединения будет 4 раздела, но почему он показывает 200.
Я запускаю его на локальном компьютере с conf.setIfMissing ("spark.master", "local [4]")