Могу ли я заменить make_blobs указанным набором данных c? - PullRequest
1 голос
/ 15 января 2020

Я нашел очень полезный код для итеративного тестирования нескольких алгоритмов кластеризации. Пример кода работает отлично. Мне интересно, смогу ли я изменить одну строку кода для подачи в свой фактический набор данных.

From:
    blobs = datasets.make_blobs(n_samples=n_samples, random_state=8)

To:
    blobs = myowndataset

Итак, myowndataset содержит некоторые категориальные данные, а также числовые данные. Я могу легко в одно касание закодировать категориальные данные. Мне просто интересно, возможно ли это сделать. В примере кода все обозначено цифрой c. Кроме того, 'datasets.make_blobs', похоже, состоит из двух массивов, а также X и y. Вот как это работает?

Код отсюда.

https://scikit-learn.org/0.18/auto_examples/cluster/plot_cluster_comparison.html

1 Ответ

1 голос
/ 15 января 2020

Вы должны искать часть папки, в которой для вас сохранены наборы данных, для меня это было что-то вроде: C:\Users\...\scikit_learn_data, если он имеет тот же формат, вы можете сохранить его там и загрузить, чтобы сохранить ту же структуру код. Это также работает, если вы не можете получить доступ к наборам данных непосредственно из Интернета.

Другой вариант - переписать ваш код и использовать общие pandas библиотеки pd.read_csv для загрузки ваших данных и перевода их в нужный формат.

...