Распространенным выбором является контролируемая классификация документов по характеристикам пакета слов (или пакета n-грамм), предпочтительно с весом tf-idf.
Популярные алгоритмы включают в себя наивные байесовские и (линейные) SVM.
Для этого подхода вам понадобятся помеченные данные обучения, т. Е. Документы с соответствующими темами.
См., Например, Введение в поиск информации , главы 13-15.