У меня есть набор документов, которые были разделены на категории Хорошая и Плохая. Я хочу быть в состоянии предсказать, к какой категории будут относиться новые документы. Одна вещь, на которую я обращаю внимание, - это поиск терминов, которые лучше всего определяют каждую категорию, и поиск этих терминов в новых документах.
Некоторое время назад я возился с кластеризацией Mahout с использованием векторов терминов Lucene, когда узнал о TF-IDF. Мне кажется, что я ищу что-то похожее, где я нашел бы TermFrequency из одной категории, но затем применил InverseDocumentFrequency этих терминов в другой категории.
Кто-нибудь знает лучший подход к поиску терминов, которые однозначно определяют документы в одной из этих групп, но не в другой?