извлечение ключевых слов Java - PullRequest
5 голосов
/ 07 мая 2011

Существует ли простая в использовании библиотека Java, которая может принимать строку и возвращать набор строк, являющихся ключевыми словами / ключевыми словами.

Это не должно быть особенно умным, просто используйте стоп-слова иstemming для соответствия ключевым словам.

Я смотрю на пакет KEA http://code.google.com/p/kea-algorithm/, но не могу понять, как использовать их код.

В идеале нечто простое, в которомпример документации был бы хорош.А пока я сам начну писать это!

РЕДАКТИРОВАТЬ: Когда я говорю, что не вижу, как понять, как использовать их код, я имею в виду, я не вижу простой способ.Индивидуальные классы сами по себе имеют полезные методы, которые будут выполнять большую часть работы.

Ответы [ 2 ]

3 голосов
/ 25 августа 2014

Это довольно старый вопрос, и, вероятно, ОП уже решил его проблему, но поставил его здесь для тех, кто может наткнуться на вопрос о том, как использовать KEA.

Для KEA вам понадобитсяучебный набор - в некоторых ваших документах уже должны быть заданы ключевые слова.Учебные данные состоят из каталога документов (файлы .txt) и соответствующих файлов ключевых слов (файлы .key), по одному ключевому слову в строке.Вы обучаете KEA на этом наборе, а затем используете модель для извлечения ключевых слов из остальных ваших документов, которые находятся в другом каталоге файлов .txt.KEA запишет соответствующие файлы .key в этом каталоге.

Для получения дополнительной информации взгляните на одно или несколько из следующего:

1) В исходном дистрибутиве KEA есть TestKEA.javaкласс, который показывает, как извлечь ключевые слова из небольшого тестового корпуса.README содержит подробную информацию о требуемом формате каталога.

2) В этом сообщении в блоге (несколько кратко IMO) приведены инструкции по использованию KEA.

http://kea -pranay.blogspot.com/2010/02/kea-key-extraction-algorithm.html

3) Мой пост в блоге, который я написал в прошлые выходные, пытаясь научиться генерировать ключевые слова из моего корпуса(которые уже были вручную помечены ключевыми словами).Он имеет код Python для предварительной обработки данных в соответствии с ожиданиями KEA, код Scala (KEA предоставляет Java API) для обучения и запуска экстрактора и код Python для анализа и визуализации сгенерированных ключевых слов.

http://sujitpal.blogspot.com/2014/08/keyword-extraction-with-kea.html

0 голосов
/ 07 мая 2011

Вы можете попробовать алгоритм Porter Stemming: версия java - http://tartarus.org/~martin/PorterStemmer/java.txt, а главная страница - http://tartarus.org/~martin/PorterStemmer/. Она старая, но не плохая.

...