Я хочу объединить три таблицы в Spark, используя только внутренние объединения.
Я считаю, что могу сделать это двумя способами:
Way 1:-
Step1: dataframeA = TableA inner join TableB on [condition] inner join TableC on [condition]
Step2: dataframeA.saveAsTable
Way 2:
Step1: dataframeA = TableA inner join TableB on [condition]
Step2: TableC -> convert to Dataframe -> dataframeB
Step3: dataframeA join dataframeA on [condition].saveAsTable
Итак, я хочу знать, какой способ быстрее реализовать, и будет ли иметь какое-либо значение, если я объединю таблицы на основе их размеров? Как сначала присоединиться к большим таблицам, чем присоединиться к меньшим.
Будут оценены любые соответствующие источники.
Спасибо.