Грязный простой способ создания классификатора:
. Прочитайте и сложите N примеров документов из 100 КБ в каждую из ваших 10 тем.Как правило, чем больше примеров документов, тем лучше.
Создайте индекс Lucene / Sphinx с 10 документами, соответствующими каждой теме.Каждый документ будет содержать все примеры документов по этой теме, объединенные вместе.
Чтобы классифицировать документ, отправьте этот документ как запрос, сделав каждое слово термином ИЛИ.Вы почти всегда получите все 10 результатов назад.Lucene / Sphinx назначит оценку каждому результату, которую вы можете интерпретировать как «сходство» документа с каждой темой.
Может быть не очень точным, но это легко, если вы не хотите проходитьпроблема обучения настоящего наивного байесовского классификатора.Если вы хотите пойти по этому пути, вы можете использовать Google для WEKA или MALLET, двух хороших библиотек машинного обучения.