Это довольно старый вопрос, и, вероятно, ОП уже решил его проблему, но поставил его здесь для тех, кто может наткнуться на вопрос о том, как использовать KEA.
Для KEA вам понадобитсяучебный набор - в некоторых ваших документах уже должны быть заданы ключевые слова.Учебные данные состоят из каталога документов (файлы .txt) и соответствующих файлов ключевых слов (файлы .key), по одному ключевому слову в строке.Вы обучаете KEA на этом наборе, а затем используете модель для извлечения ключевых слов из остальных ваших документов, которые находятся в другом каталоге файлов .txt.KEA запишет соответствующие файлы .key в этом каталоге.
Для получения дополнительной информации взгляните на одно или несколько из следующего:
1) В исходном дистрибутиве KEA есть TestKEA.javaкласс, который показывает, как извлечь ключевые слова из небольшого тестового корпуса.README содержит подробную информацию о требуемом формате каталога.
2) В этом сообщении в блоге (несколько кратко IMO) приведены инструкции по использованию KEA.
http://kea -pranay.blogspot.com/2010/02/kea-key-extraction-algorithm.html
3) Мой пост в блоге, который я написал в прошлые выходные, пытаясь научиться генерировать ключевые слова из моего корпуса(которые уже были вручную помечены ключевыми словами).Он имеет код Python для предварительной обработки данных в соответствии с ожиданиями KEA, код Scala (KEA предоставляет Java API) для обучения и запуска экстрактора и код Python для анализа и визуализации сгенерированных ключевых слов.
http://sujitpal.blogspot.com/2014/08/keyword-extraction-with-kea.html