Question

У меня есть коллекция из 1 миллиона документов разной длины, но каждый документ имеет заголовок от 1 до 5 слов. Я хочу сгруппировать эти документы, чтобы найти группы похожих документов (связанных с одной и той же темой). Что может быть хорошим подходом для добавления большего веса к терминам в заголовке, чтобы можно было считать, что документы с похожими заголовками имеют большую вероятность того, что они находятся в одном классе? Я уже пробовал с представлением tf-idf, но я хотел бы поэкспериментировать с другими подходами к взвешиванию.

Anony-Mousse · Answer 1 · 07 мая 2018

Все подходы на основе TF тривиально допускают взвешивание при вычислении значения TF.

Для целых весов это то же самое, что просто повторить заголовок несколько раз. Этот подход может также работать с другими подходами (но какой подход не основан на TF?)

Просто проверьте, что делает Apache Luene.

Как повысить значимость заголовков документов, чтобы найти хорошие возможности для кластеризации документов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как повысить значимость заголовков документов, чтобы найти хорошие возможности для кластеризации документов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы