Мне нужно иметь возможность получить количество различных комбинаций в двух отдельных столбцах.
В этом примере из столбцов "Животное" и "Цвет" результат, который я хочу получить, равен 3, посколькупроисходят три различные комбинации столбцов. По сути, Animal или Color могут быть одинаковыми в отдельных строках, но если две строки имеют одинаковое Animal и Color, его следует исключить из этого подсчета.
Animal | Color
Dog | Brown
Dog | White
Cat | Black
Dog | White
Я знаю, что вы можете добавить данные в набори это устранит дубликаты, но я не могу заставить его работать с несколькими переменными.
Вот пример кода, который мне дали, чтобы попытаться решить эту проблему.
d = d.rdd
d = d.map(lambda row: (row.day.year, row.number))
print(d.take(2000))
d_maxNum = d.reduceByKey(lambda max_num, this_num: this_num if this_num > max_num else max_num)
print(d_maxNum.collect())