Подходит ли LIBSVM для многих категорий и образцов? - PullRequest
0 голосов
/ 27 июня 2018

Я строю классификатор текста, который должен быть в состоянии определить вероятность того, что документ относится к определенным категориям (например, 80% художественной литературы, 30% маркетинга и т. Д.)

Я полагаю, что Libsvm делает это с помощью метода «прогнозирования», но проблема в том, что у меня есть примерно 20 категорий для проверки. Также у меня есть несколько сотен документов, которые можно использовать для обучения.

Проблема в том, что размер обучающего файла составляет 1 ГБ - 2 ГБ, и это делает Libsvc очень медленным.

Как решить эту проблему? И стоит ли вместо этого перейти на Liblinear или есть лучшие варианты?

1 Ответ

0 голосов
/ 28 июня 2018

Что касается этого конкретного вопроса, мне пришлось использовать Liblinear, поскольку LibSVC продолжал работать вечно.

Но если кто-то хочет знать, как это в итоге получилось:

  1. Я перешел с PHP / C ++ на Python, что было невероятно проще и не возникало проблем с памятью
  2. Мой случай был "мульти-маркировка". Эта статья направила меня в правильном направлении, а проект сорока помог мне выполнить задачу.
...