Итак, у меня есть следующий фрейм данных:
id text
342 text sample
341 another text sample
343 ...
И следующий код:
X = tfidf_vectorizer.fit_transform(df['text']).todense()
pca = PCA(n_components=2)
data2D = pca.fit_transform(X)
clusterer = KMeans(n_clusters=n_clusters), random_state=10)
cluster_labels = clusterer.fit_predict(data2D)
silhouette_avg = silhouette_score(data2D, cluster_labels)
print(silhouette_avg)
y_lower = 10
for i in range(n_clusters):
# here I would like to get the id's of each item per cluster
# so that I know which list of id's falls into which cluster
Теперь, как я могу увидеть, какой идентификатор попадает в какой кластер, это то, чтоосуществимо?Также правильный ли мой подход для того, чтобы «кластеризовать» эти текстовые документы?
Пожалуйста, не забывайте, что я мог пропустить некоторый код, чтобы вопрос был коротким