Предположим, я присоединяюсь к нескольким Spark
фреймам данных:
abcd = a.join(b, 'bid', 'inner')\
.join(c, 'cid', 'inner')\
.join(d, 'did', 'left')\
.distinct()
abcd.head() # takes 5-7 min.
Вызов head
запускает конвейерное выполнение, которое занимает 5-7 минут. Это как-то связано с этими joins
? Как бы вы сделали трубопровод быстрее?