У меня есть набор данных, в котором есть 737 статей, относящихся к 5 категориям, таких как cricket,volley....
Уже предоставлен Vocab для документов, который содержит разные 4613 слов
vocab[:5]
>> ['claxton', 'hunt', 'first', 'major', 'medal']
У меня есть ярлыки для всех 737 документов как
labels[:10]
>> [0,0,0,1,1,1,3,3,4,0]
Мне дан вектор функций как
feat
>>>
1 1 7.0
1 58 2.0
1 59 1.0
2 182 1.0
3 25 1.0
3 26 1.0
3 34 1.0
Так что я думаю, что он имеет вид vocab_index - docid - frequency
Что мне нужно использовать эти данные для кластеризации с помощью K-средних? ИЛИ Как я могу преобразовать эти данные, чтобы я мог использовать их в той или иной форме для использования K-Means?