как конвертировать Word-DocId-Frequency в виде Tfidf и CountVectors для использования для кластеризации - PullRequest
0 голосов
/ 12 февраля 2020

У меня есть набор данных, в котором есть 737 статей, относящихся к 5 категориям, таких как cricket,volley.... Уже предоставлен Vocab для документов, который содержит разные 4613 слов

vocab[:5]
>> ['claxton', 'hunt', 'first', 'major', 'medal']

У меня есть ярлыки для всех 737 документов как

labels[:10]
>> [0,0,0,1,1,1,3,3,4,0]

Мне дан вектор функций как

feat
>>>
1 1 7.0
1 58 2.0
1 59 1.0
2 182 1.0
3 25 1.0
3 26 1.0
3 34 1.0

Так что я думаю, что он имеет вид vocab_index - docid - frequency

Что мне нужно использовать эти данные для кластеризации с помощью K-средних? ИЛИ Как я могу преобразовать эти данные, чтобы я мог использовать их в той или иной форме для использования K-Means?

...