Я использую реализацию scipy.cluster.hierarchy.linkage на Python для создания кластеров из текста, используя косинусное сходство, сначала я создаю векторное представление с помощью TfidfVectorizer, а затем применяю алгоритм кластеризации следующим образом:
corpus = ['the text...','another text...']
vectorizer = TfidfVectorizer(
analyzer = 'word',
tokenizer = tokenize,
lowercase = True,
stop_words = spanish_stopwords)
X = vectorizer.fit_transform(corpus)
Z = linkage(X.toarray(),'single','cosine')
Я нарисовал дендограмму, и скопления видны.Теперь я хочу определить, какая строка из корпуса принадлежит какому кластеру.Как я могу это сделать?