У меня есть фрейм данных (около 20000000 строк), и я хотел бы удалить дубликаты из фрейма данных...
PySpark дает мне небольшие странные результаты после dropDuplicates и объединения наборов данных