Помощь с предположениями категориальных переменных для кластеризации k-средних на Rapidminer - PullRequest
0 голосов
/ 20 сентября 2019

Мне дали набор данных для упражнения в кластеризации k-средних с 5 переменными.Три из них являются непрерывными (возраст покупателя, количество товаров в транзакции и долларовая стоимость транзакции), однако два других не являются биномиальными (в магазине или в онлайн-транзакции как 1 или 0), а другой полиномиален («Регион» сзначения 1,2,3 или 4).(Хотя они оба в настоящее время находятся в наборе данных как целые числа)

Правильно ли я считаю, что мне следует исключить тип транзакции и регион?Моя логика заключается в том, что произведенные центроиды являются более или менее мусором, учитывая, что транзакция не может быть на полпути между транзакцией онлайн или в магазине.Точно так же с географическими регионами - и среднее значение не имеет смысла.

Заранее благодарим за любую помощь.Я провел последние полтора дня в онлайн-исследованиях, и я не мудрый (с какой-либо определенностью).

(работаю в Rapidminer, если это что-то меняет)

Скриншотобразца набора данных

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...