Я реализую модель классификации, у меня есть 11 категориальных переменных и 33 числовые переменные, я использовал два типа моделей, и я хотел бы высказать мнение, которое будет лучшим:
Модель 1: я использовалK означает, что для категориальных переменных я преобразовал каждую опцию в новый двоичный столбец, то есть положение переменной: 1,2,3, у меня есть 3 столбца.
Модель 2: Я использовал прототип K, учитывая 11 категориальных переменных x числовые (я не нашел много документации, поэтому ниже я оставляю код для конференции)
from kmodes.kprototypes import KPrototypes
import matplotlib.pyplot as plt
from matplotlib import style
x = SP_results_Array.values
kproto = KPrototypes(n_clusters=5, init='Cao', verbose=2)
clusters = kproto.fit_predict(x, categorical=[0,1,2,3,4,5,6,7,8,9] ) ```