Я работаю над двумя фреймами данных pyspark и выполняю объединение влево, чтобы отследить ежедневные изменения и затем отправить электронное письмо.
Первый раз попробовал:
diff = Table_a.join(
Table_b,
[Table_a.col1== Table_b.col1, Table_a.col2== Table_b.col2],
how='left_anti'
)
Ожидаемый вывод - это фрейм данных pyspark с некоторыми данными или без них.
Этот блок данных diff получает схему из Table_a.
В первый раз, когда я запустил его, не было данных, как ожидалось с представлением схемы. В следующий раз просто выбрасывает SparkException:
Exception thrown in Future.get