Получить экземпляры, принадлежащие кластеру в иерархической кластеризации на scipy - PullRequest
0 голосов
/ 28 января 2019

Я использую реализацию scipy.cluster.hierarchy.linkage на Python для создания кластеров из текста, используя косинусное сходство, сначала я создаю векторное представление с помощью TfidfVectorizer, а затем применяю алгоритм кластеризации следующим образом:

corpus = ['the text...','another text...']
vectorizer = TfidfVectorizer(  
            analyzer = 'word',
            tokenizer = tokenize,
            lowercase = True,
            stop_words = spanish_stopwords)

X = vectorizer.fit_transform(corpus)
Z = linkage(X.toarray(),'single','cosine')

Я нарисовал дендограмму, и скопления видны.Теперь я хочу определить, какая строка из корпуса принадлежит какому кластеру.Как я могу это сделать?

...