Michael 14 мая 2018 8

Как улучшить этот Spark трубопровод?

Michael / 14 мая 2018

Предположим, я присоединяюсь к нескольким Spark фреймам данных:

abcd = a.join(b, 'bid', 'inner')\
        .join(c, 'cid', 'inner')\
        .join(d, 'did', 'left')\
        .distinct() 
abcd.head() # takes 5-7 min.

Вызов head запускает конвейерное выполнение, которое занимает 5-7 минут. Это как-то связано с этими joins? Как бы вы сделали трубопровод быстрее?

1 Ответ

...