У меня есть два физических узла, которые не синхронизированы.
Оба узла выдают захваченные данные. (Для обеспечения устойчивости была внедрена технология двух узлов).
Я сталкиваюсь со следующими вызовом :
- узлы создают два идентичных файла (временные метки могут не совпадать, ни один уникальный идентификатор в Для того, чтобы удалить дубликаты). Оба кадра используют одну и ту же схему.
Есть ли способ записи во фрейм данных с использованием pyspark, например:
df3= case
when df1.count()<df2.count() then df2,
when df1.count()>df2.count() then df1,
ELSE df1