Ваши корпуса не очень большие, поэтому NLTK должен сделать эту работу.Тем не менее, я не рекомендовал бы это вообще, это довольно медленно и глючит местами. Weka - более мощный инструмент, но тот факт, что он может сделать намного больше, усложняет понимание.Если «Наивный байесовский» - это все, что вы планируете использовать, вероятно, было бы быстрее всего написать его самостоятельно.
РЕДАКТИРОВАТЬ (гораздо позже):
Попробуйте scikit-learn очень прост в использовании.