Подходит ли наивный байесовский классификатор НЛТК для коммерческого использования? - PullRequest
2 голосов
/ 23 сентября 2011

Мне нужно тренировать наивный байесовский классификатор на двух корпусах, состоящих из ок.15 000 жетонов каждый.Я использую базовый пакет функций извлечения слов с двоичной маркировкой, и мне интересно, достаточно ли NLTK для обработки всех этих данных без существенного замедления времени выполнения, если такое приложение получит много пользователей.Программа будет в основном классифицировать обычный поток текстовых сообщений от потенциально тысяч пользователей.Существуют ли другие пакеты машинного обучения, которые вы бы порекомендовали интегрировать с NLTK, если они не подходят?

1 Ответ

3 голосов
/ 13 октября 2011

Ваши корпуса не очень большие, поэтому NLTK должен сделать эту работу.Тем не менее, я не рекомендовал бы это вообще, это довольно медленно и глючит местами. Weka - более мощный инструмент, но тот факт, что он может сделать намного больше, усложняет понимание.Если «Наивный байесовский» - это все, что вы планируете использовать, вероятно, было бы быстрее всего написать его самостоятельно.

РЕДАКТИРОВАТЬ (гораздо позже):

Попробуйте scikit-learn очень прост в использовании.

...