Я работаю с tf-idf и классификацией текста для ранжирования слов в документах.Мне было интересно, можно ли добавить значения tf-idf для соответствующих слов, чтобы предсказать ближайшее совпадение для нового документа.Под этим я подразумеваю:
Suppose I had the following tf-idf values for certain words (hypothetical):
word Category 1 Category 2 Category 3
x 0.3 0.6 0.2
y 0.8 0.4 0.1
z 0.2 0.5 0.7
Категории в этом случае - это очень длинные документы, состоящие из всех документов в определенной категории, вместе взятых, это уменьшает размер корпуса с тысяч до 10 в моем случае,Стоит также отметить, что я использую сублинейный TF, чтобы уменьшить влияние очень частых терминов.
Если у меня был новый документ со словами «xy», то я думал о том, чтобы добавитьувеличьте значения tf-idf для этих слов в каждой категории, и какая из категорий будет иметь наибольшую сумму, будет ближайшим совпадением с новым документом.В этом случае сумма для категории 1 будет равна 1,1, 1,0 для категории 2 и 0,3 для категории 3, поэтому самое близкое совпадение с новым документом - это категория 1. Мне также было интересно, если этот «алгоритм» уже существует и имеетname.
Я пробовал это на некоторых тестовых данных, и это предсказывает точно в 86% случаев.И это кажется более логичным, чем использование LogisticRegression.Итак, это правильный алгоритм?