Mahout может быть излишним для вашей проблемы - но вы можете получить довольно быстрое и простое решение, используя OpenNLP.
http://opennlp.sourceforge.net/api/index.html
В частности, посмотрите на пакет opennlp.tools.doccat. По сути, вы должны пройти и вручную пометить небольшой набор элементов для каждой категории, которую вы хотите. Если они действительно различны, вы можете выбрать небольшой размер выборки.
Вы можете использовать статическую функцию DocumentCategorizerME.train () для обучения коллекции документов, для каждого из которых требуется тег категории и текстовый блок для обучения. Затем вы можете инициализировать DocumentCategorizerME с обученной моделью и начать классификацию всех остальных ваших документов.
Как только вы это сделаете, вы можете (я думаю) записать модель в файл, чтобы вам больше не приходилось делать это снова.