Как я могу использовать веса TF-IDF для ранжирования релевантности? - PullRequest
3 голосов
/ 30 июня 2011

У меня есть набор ключевых терминов, и я рассчитал веса TF-IDF вместе с частотами тегов и количеством терминов для каждого термина, сохраненного в базе данных.

Как я могу использовать эти значения БД для получения набора связанных терминов, заданных единственным термином?

Я прочитал страницу Википедии на TF-IDF и использовал много результатов поиска Google, связанных с косинусными сходствами, алгоритмами n-граммы и тому подобным. Мои сильные стороны не в линейной алгебре, ИК или исчислении, поэтому я изо всех сил пытаюсь разобраться в этих документах.

Я хотел бы знать о связи весов TF-IDF с релевантностью. Есть ли способ ранжировать эти значения? Нужно ли ранжировать их по отношению к весу заранее определенного термина?

Как я могу использовать эти числа теперь, когда они у меня есть?

...