scikit-learn kmeans кластеризация текста с расстоянием jaccard - PullRequest
0 голосов
/ 02 июля 2019

Я пытаюсь использовать sklearn для кластеризации некоторых твитов в качестве словаря. У меня есть 25 начальных идентификаторов центроидов (твит идентификатор) Я написал это в своих собственных функциях, НО я не знаю, как реализовать это с помощью sklearn

# {845512:'tweet id 845512', 543115:'tweet id 543115', ...}
# initial_centroids = [845512, 546318, 84632, ...] - 25 centroids

NOTE: tweets_vec <= I need to make it by jaccard_distance
tweets_vec = Is the jaccard distance matrix (it may be wrong, i dont know)

kmeans = KMeans(n_clusters=25, init=initial_seeds).fit(tweets_vec)

Я сделал 2D матрицу, в которой есть расстояния по Джакарду. Я не знаю, как исправить init в методе kmeans. это ошибки, которые не ndarray

что именно мне передать?

1 Ответ

0 голосов
/ 04 июля 2019

если в пределах kmeans вы передаете init=initial_centroids, то initial_centroids должно иметь форму clusters x features.Если вы используете только одну функцию, вам может потребоваться изменить форму массива, попробуйте:

init_cent_array = np.asarray(initial_centroids).reshape(-1,len(initial_centroids))

и передать его в качестве аргумента init в kmeans.Надеюсь, это поможет.

...