Я строю классификатор текста, который должен быть в состоянии определить вероятность того, что документ относится к определенным категориям (например, 80% художественной литературы, 30% маркетинга и т. Д.)
Я полагаю, что Libsvm делает это с помощью метода «прогнозирования», но проблема в том, что у меня есть примерно 20 категорий для проверки. Также у меня есть несколько сотен документов, которые можно использовать для обучения.
Проблема в том, что размер обучающего файла составляет 1 ГБ - 2 ГБ, и это делает Libsvc очень медленным.
Как решить эту проблему? И стоит ли вместо этого перейти на Liblinear или есть лучшие варианты?