Я бы предложил вам использовать WEKA: http://www.cs.waikato.ac.nz/ml/weka/ - WEKA содержит большое количество алгоритмов и утилит для анализа данных.
Он имеет графический интерфейс, в котором вы можете экспериментировать с различными конфигурациями и комбинациями классификаторов и фильтров для ваших данных, а когда вы построите хорошую модель, вы можете либо встроить WEKA в свою Java-программу (это также Java), и используйте его с заранее созданной моделью, чтобы предсказать класс, или используйте его, чтобы постоянно улучшать модель. Или после использования WEKA для экспериментов вы можете реализовать получившееся дерево решений или что-то еще в своем собственном приложении, чтобы вам не приходилось включать WEKA.
Вы, вероятно, хотите использовать твит «мешок слов» и использовать классификатор, такой как многослойный персептрон, наивный байесовский анализ или J48 - все это доступно для экспериментов в WEKA.
Проверьте эту страницу: http://weka.wikispaces.com/Text+categorization+with+WEKA - в нижней части страницы приведен пример категоризации текста.
Приветствия,