Как извлечь идентификатор из неконтролируемой текстовой классификации - PullRequest
0 голосов
/ 26 ноября 2018

Итак, у меня есть следующий фрейм данных:

id     text
342    text sample
341    another text sample
343    ...

И следующий код:

X = tfidf_vectorizer.fit_transform(df['text']).todense()
pca = PCA(n_components=2)
data2D = pca.fit_transform(X)
clusterer = KMeans(n_clusters=n_clusters), random_state=10)
cluster_labels = clusterer.fit_predict(data2D)
silhouette_avg = silhouette_score(data2D, cluster_labels)
print(silhouette_avg)
y_lower = 10
for i in range(n_clusters):
    # here I would like to get the id's of each item per cluster
    # so that I know which list of id's falls into which cluster

Теперь, как я могу увидеть, какой идентификатор попадает в какой кластер, это то, чтоосуществимо?Также правильный ли мой подход для того, чтобы «кластеризовать» эти текстовые документы?

Пожалуйста, не забывайте, что я мог пропустить некоторый код, чтобы вопрос был коротким

1 Ответ

0 голосов
/ 24 декабря 2018

Существует множество способов выполнить классификацию документов .K-средства это один из способов.Сказать, что вы делаете лучше всего, было бы невозможно, глядя на данные и варианты использования и изучая другие методы.

Если вы хотите придерживаться KMeans, я советую вам прочитать документацию насайт scikit-learn еще раз.В примере вы заметите, как можно получить прогнозируемую метку класса для каждой точки, вызвав свойство labels_ в классификаторе соответствия (примечание: не результат fit_transform, как у вас сейчас).

...