Как повысить значимость заголовков документов, чтобы найти хорошие возможности для кластеризации документов? - PullRequest
0 голосов
/ 04 мая 2018

У меня есть коллекция из 1 миллиона документов разной длины, но каждый документ имеет заголовок от 1 до 5 слов. Я хочу сгруппировать эти документы, чтобы найти группы похожих документов (связанных с одной и той же темой). Что может быть хорошим подходом для добавления большего веса к терминам в заголовке, чтобы можно было считать, что документы с похожими заголовками имеют большую вероятность того, что они находятся в одном классе? Я уже пробовал с представлением tf-idf, но я хотел бы поэкспериментировать с другими подходами к взвешиванию.

1 Ответ

0 голосов
/ 07 мая 2018

Все подходы на основе TF тривиально допускают взвешивание при вычислении значения TF.

Для целых весов это то же самое, что просто повторить заголовок несколько раз. Этот подход может также работать с другими подходами (но какой подход не основан на TF?)

Просто проверьте, что делает Apache Luene.

...