Question

Я попытался использовать DBSCAN (из scikit-learn) для кластеризации текстовых документов.Я использую TF-IDF (TfidfVectorizer в sklearn) для создания функции каждого документа.

Однако я не нашел способа получить (распечатать) документы, сгруппированные с помощью DBSCAN.

DBSCAN в sklearn предоставляет атрибут с именем 'tags_', который позволяет нам получить метки группы кластеров (например, 1, 2, 3, -1 для шума).Но я хочу получить документы, которые кластеризованы с помощью DBSCAN, вместо меток группы кластеров.

Чтобы подчеркнуть, я хочу знать, какие документы принадлежат каждому кластеру.Не могли бы вы предложить способы сделать это?

Большое спасибо!

Anony-Mousse · Answer 1 · 13 июня 2018

Используйте метки для выбора документов.

X[labels_ == 1,:]

Должны быть все документы в кластере 1.

Получить кластерные документы DBSCAN

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Получить кластерные документы DBSCAN

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы