Можно ли добавить значения tf-idf для поиска сходства документов? - PullRequest
0 голосов
/ 08 июля 2019

Я работаю с tf-idf и классификацией текста для ранжирования слов в документах.Мне было интересно, можно ли добавить значения tf-idf для соответствующих слов, чтобы предсказать ближайшее совпадение для нового документа.Под этим я подразумеваю:

Suppose I had the following tf-idf values for certain words (hypothetical):

    word   Category 1   Category 2   Category 3
    x      0.3          0.6          0.2
    y      0.8          0.4          0.1
    z      0.2          0.5          0.7

Категории в этом случае - это очень длинные документы, состоящие из всех документов в определенной категории, вместе взятых, это уменьшает размер корпуса с тысяч до 10 в моем случае,Стоит также отметить, что я использую сублинейный TF, чтобы уменьшить влияние очень частых терминов.

Если у меня был новый документ со словами «xy», то я думал о том, чтобы добавитьувеличьте значения tf-idf для этих слов в каждой категории, и какая из категорий будет иметь наибольшую сумму, будет ближайшим совпадением с новым документом.В этом случае сумма для категории 1 будет равна 1,1, 1,0 для категории 2 и 0,3 для категории 3, поэтому самое близкое совпадение с новым документом - это категория 1. Мне также было интересно, если этот «алгоритм» уже существует и имеетname.

Я пробовал это на некоторых тестовых данных, и это предсказывает точно в 86% случаев.И это кажется более логичным, чем использование LogisticRegression.Итак, это правильный алгоритм?

...