Мне дали набор данных для упражнения в кластеризации k-средних с 5 переменными.Три из них являются непрерывными (возраст покупателя, количество товаров в транзакции и долларовая стоимость транзакции), однако два других не являются биномиальными (в магазине или в онлайн-транзакции как 1 или 0), а другой полиномиален («Регион» сзначения 1,2,3 или 4).(Хотя они оба в настоящее время находятся в наборе данных как целые числа)
Правильно ли я считаю, что мне следует исключить тип транзакции и регион?Моя логика заключается в том, что произведенные центроиды являются более или менее мусором, учитывая, что транзакция не может быть на полпути между транзакцией онлайн или в магазине.Точно так же с географическими регионами - и среднее значение не имеет смысла.
Заранее благодарим за любую помощь.Я провел последние полтора дня в онлайн-исследованиях, и я не мудрый (с какой-либо определенностью).
(работаю в Rapidminer, если это что-то меняет)
Скриншотобразца набора данных