Я нашел очень полезный код для итеративного тестирования нескольких алгоритмов кластеризации. Пример кода работает отлично. Мне интересно, смогу ли я изменить одну строку кода для подачи в свой фактический набор данных.
From:
blobs = datasets.make_blobs(n_samples=n_samples, random_state=8)
To:
blobs = myowndataset
Итак, myowndataset содержит некоторые категориальные данные, а также числовые данные. Я могу легко в одно касание закодировать категориальные данные. Мне просто интересно, возможно ли это сделать. В примере кода все обозначено цифрой c. Кроме того, 'datasets.make_blobs'
, похоже, состоит из двух массивов, а также X и y. Вот как это работает?
Код отсюда.
https://scikit-learn.org/0.18/auto_examples/cluster/plot_cluster_comparison.html