Классифицировать документы по тегам - PullRequest
0 голосов
/ 05 апреля 2011

У меня есть огромное количество документов (в основном PDF-файлы и документы), которые я хочу классифицировать, поэтому я могу искать их по определенным тегам. Эти теги могут быть либо моими (я поместил теги в документ), либо извлечены из текста.

Я только что видел сообщение, связанное с этим ( Классифицируйте данные с помощью Apache Mahout ), но, возможно, есть что-то еще более простое.

Ответы [ 2 ]

3 голосов
/ 08 апреля 2011

Mahout может быть излишним для вашей проблемы - но вы можете получить довольно быстрое и простое решение, используя OpenNLP.

http://opennlp.sourceforge.net/api/index.html

В частности, посмотрите на пакет opennlp.tools.doccat. По сути, вы должны пройти и вручную пометить небольшой набор элементов для каждой категории, которую вы хотите. Если они действительно различны, вы можете выбрать небольшой размер выборки.

Вы можете использовать статическую функцию DocumentCategorizerME.train () для обучения коллекции документов, для каждого из которых требуется тег категории и текстовый блок для обучения. Затем вы можете инициализировать DocumentCategorizerME с обученной моделью и начать классификацию всех остальных ваших документов.

Как только вы это сделаете, вы можете (я думаю) записать модель в файл, чтобы вам больше не приходилось делать это снова.

0 голосов
/ 05 июня 2012

Этот пост на извлечение ключевых слов и классификация веб-страниц связан и может быть полезен. В вашем примере это звучит так, как будто вы можете использовать теги вместо части извлечения ключевого слова (хотя вы можете использовать оба в комбинации). Weka прост в использовании, я бы определенно рекомендовал взглянуть на него.

...