Крупномасштабный наивный байесовский классификатор с выходом top-k - PullRequest
2 голосов
/ 12 июля 2011

Мне нужна библиотека для наивного байесовского масштаба, с миллионами обучающих примеров и + 100k бинарных функций.Это должна быть онлайн-версия (обновляемая после тренировки).Мне также нужен вывод top-k, то есть несколько классификаций для одного экземпляра.Точность не очень важна.

Цель - приложение автоматической категоризации текста.

Любые предложения по созданию хорошей библиотеки очень приветствуются.

РЕДАКТИРОВАТЬ: Библиотека предпочтительно должна бытьна Java.

1 Ответ

2 голосов
/ 12 июля 2011

Если алгоритм обучения, отличный от наивного байесовского, также приемлем, проверьте Vowpal Wabbit (C ++), который имеет репутацию одного из лучших масштабируемых алгоритмов классификации текста (онлайн-стохастический градиентный спуск LDA). Я не уверен, что он выводит top-K.

...