Я попытался использовать DBSCAN (из scikit-learn) для кластеризации текстовых документов.Я использую TF-IDF (TfidfVectorizer в sklearn) для создания функции каждого документа.
Однако я не нашел способа получить (распечатать) документы, сгруппированные с помощью DBSCAN.
DBSCAN в sklearn предоставляет атрибут с именем 'tags_', который позволяет нам получить метки группы кластеров (например, 1, 2, 3, -1 для шума).Но я хочу получить документы, которые кластеризованы с помощью DBSCAN, вместо меток группы кластеров.
Чтобы подчеркнуть, я хочу знать, какие документы принадлежат каждому кластеру.Не могли бы вы предложить способы сделать это?
Большое спасибо!