Я изучаю возможность кластеризации некоторых категориальных данных с помощью Python. В настоящее время у меня есть 8 функций с примерно 3-10 уровнями.
Как я понял, в этой среде можно использовать как кодирование с одним вызовом с использованием kmeans, так и kmodes , при этом kmeans может оказаться неидеальным с огромными комбинациями функций / уровней из-за проклятия проблем размерности.
Это правильно?
В данный момент я бы следовал маршруту kmeans, потому что это дало бы мне гибкость для добавления некоторых числовых функций, и вычисление статистики силуэтов и оценка оптимального числа кластеров, кажется, намного проще.
Имеет ли это смысл? Есть ли у вас какие-либо предложения относительно ситуаций, в которых один подход должен быть предпочтительнее другого?
Спасибо