Я полагаю, что в предыдущих ответах есть неустановленное предположение.Неустановленное предположение состоит в том, что пользователи libSVM знают, что им следует избегать помещения категориальных данных в классификатор.
Например, libSVM не будет знать, что делать с кодами стран.Если вы пытаетесь предсказать, какие посетители, скорее всего, что-то купят на вашем сайте, у вас могут возникнуть проблемы, если в списке кодов стран США находится между Чадом и Нигером.Выпуклость из США, вероятно, искажает прогнозы для стран, расположенных рядом с ней.
Чтобы исправить это, я бы создал одну категорию для каждой рассматриваемой страны (и, возможно, категорию «другая»).Затем для каждого экземпляра, который вы хотите классифицировать, я бы установил все категории стран на ноль, кроме того, к которому принадлежит экземпляр.(Чтобы сделать это с разреженным форматом libSVM, это не имеет большого значения).