У меня есть большая матрица двоичных данных о покупках товаров покупателями. Матрица в основном разреженная, и, как предлагается здесь, я попытался использовать KModes для кластеризации набора данных.
Кластеры значимы, поэтому я хочу протестировать невидимые данные, чтобы увидеть, какие кластеры они попасть под?
Я думаю об использовании KModes для определения кластера, в который попадет каждый клиент, а затем использовать KNN для идентификации кластера для невидимых наборов данных.
Каковы недостатки использования KNN с KModes?