Question

Я строю классификатор текста, который должен быть в состоянии определить вероятность того, что документ относится к определенным категориям (например, 80% художественной литературы, 30% маркетинга и т. Д.)

Я полагаю, что Libsvm делает это с помощью метода «прогнозирования», но проблема в том, что у меня есть примерно 20 категорий для проверки. Также у меня есть несколько сотен документов, которые можно использовать для обучения.

Проблема в том, что размер обучающего файла составляет 1 ГБ - 2 ГБ, и это делает Libsvc очень медленным.

Как решить эту проблему? И стоит ли вместо этого перейти на Liblinear или есть лучшие варианты?

David Niki · Answer 1 · 28 июня 2018

Что касается этого конкретного вопроса, мне пришлось использовать Liblinear, поскольку LibSVC продолжал работать вечно.

Но если кто-то хочет знать, как это в итоге получилось:

Я перешел с PHP / C ++ на Python, что было невероятно проще и не возникало проблем с памятью
Мой случай был "мульти-маркировка". Эта статья направила меня в правильном направлении, а проект сорока помог мне выполнить задачу.

Подходит ли LIBSVM для многих категорий и образцов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Подходит ли LIBSVM для многих категорий и образцов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы