Сравните два ряда строк данных. Назначить фрейм данных с большим количеством строк новому объекту фрейма данных - PullRequest
0 голосов
/ 20 апреля 2020

У меня есть два физических узла, которые не синхронизированы.

Оба узла выдают захваченные данные. (Для обеспечения устойчивости была внедрена технология двух узлов).

Я сталкиваюсь со следующими вызовом :

  • узлы создают два идентичных файла (временные метки могут не совпадать, ни один уникальный идентификатор в Для того, чтобы удалить дубликаты). Оба кадра используют одну и ту же схему.

Есть ли способ записи во фрейм данных с использованием pyspark, например:

df3= case 
         when df1.count()<df2.count() then  df2,
         when df1.count()>df2.count() then  df1,
         ELSE df1

1 Ответ

0 голосов
/ 21 апреля 2020

Разрешен следующий случай путем определения функции «сравнения».

def compare(df1, df2):
    if df1.count() > df2.count(): 
        return df1 
    if df1.count() < df2.count(): 
    return df2 
    else:
      return df1

Кажется, что возможность работать с фреймами данных, поскольку объект может быть достигнут с помощью функций

...