У меня есть коллекция из 1 миллиона документов разной длины, но каждый документ имеет заголовок от 1 до 5 слов. Я хочу сгруппировать эти документы, чтобы найти группы похожих документов (связанных с одной и той же темой). Что может быть хорошим подходом для добавления большего веса к терминам в заголовке, чтобы можно было считать, что документы с похожими заголовками имеют большую вероятность того, что они находятся в одном классе? Я уже пробовал с представлением tf-idf, но я хотел бы поэкспериментировать с другими подходами к взвешиванию.