Question

У меня есть набор данных, в котором есть 737 статей, относящихся к 5 категориям, таких как cricket,volley.... Уже предоставлен Vocab для документов, который содержит разные 4613 слов

vocab[:5]
>> ['claxton', 'hunt', 'first', 'major', 'medal']

У меня есть ярлыки для всех 737 документов как

labels[:10]
>> [0,0,0,1,1,1,3,3,4,0]

Мне дан вектор функций как

Так что я думаю, что он имеет вид vocab_index - docid - frequency

Что мне нужно использовать эти данные для кластеризации с помощью K-средних? ИЛИ Как я могу преобразовать эти данные, чтобы я мог использовать их в той или иной форме для использования K-Means?

как конвертировать Word-DocId-Frequency в виде Tfidf и CountVectors для использования для кластеризации

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

как конвертировать Word-DocId-Frequency в виде Tfidf и CountVectors для использования для кластеризации

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы