Я имею дело с проблемой обобщения текста, т. Е. Учитывая большой объем текста, я хочу найти наиболее представительные «темы» или тему текста.Для этого я использовал различные теоретико-информационные меры, такие как TF-IDF, Residual IDF и Pointwise Mutual Information, чтобы создать «словарь» для моего корпуса.Этот словарь содержит важные слова, упомянутые в тексте.
Я вручную перебрал весь список из 50 000 фраз, отсортированных по их показателю TFIDF, и отобрал 2000 фраз (я знаю! Мне понадобилось 15 часов, чтобы сделать это ...), которые являются основной истиной, то естьважны наверняка.Теперь, когда я использую это в качестве словаря и выполняю простой анализ частоты моего текста и извлекаю фразы top-k, я в основном вижу, что это за предмет, и я согласен с тем, что вижу.
Теперь какя могу оценить этот подход?Здесь нет машинного обучения или классификации.По сути, я использовал некоторые методики НЛП для создания словаря, а использование одного словаря для простого анализа частоты дает мне темы, которые я ищу.Тем не менее, есть ли формальный анализ, который я могу сделать для моей системы, чтобы измерить ее точность или что-то еще?