Получить кластерные документы DBSCAN - PullRequest
0 голосов
/ 12 июня 2018

Я попытался использовать DBSCAN (из scikit-learn) для кластеризации текстовых документов.Я использую TF-IDF (TfidfVectorizer в sklearn) для создания функции каждого документа.

Однако я не нашел способа получить (распечатать) документы, сгруппированные с помощью DBSCAN.

DBSCAN в sklearn предоставляет атрибут с именем 'tags_', который позволяет нам получить метки группы кластеров (например, 1, 2, 3, -1 для шума).Но я хочу получить документы, которые кластеризованы с помощью DBSCAN, вместо меток группы кластеров.

Чтобы подчеркнуть, я хочу знать, какие документы принадлежат каждому кластеру.Не могли бы вы предложить способы сделать это?

Большое спасибо!

1 Ответ

0 голосов
/ 13 июня 2018

Используйте метки для выбора документов.

X[labels_ == 1,:]

Должны быть все документы в кластере 1.

...