Формат LIBSVM открыто стандартизирован и, возможно, лучше анализировать / использовать, чем формат CSV.Базовый формат можно увидеть здесь .
Но вам не нужно делать это самостоятельно.
Вы можете прочитать их с помощью sklearn иэто load_svmlight_file :
Загрузка наборов данных в формате svmlight / libsvm в разреженную матрицу CSR
Но ознакомьтесь с разреженными матрицами, хотя,при использовании sklearn большинство вещей будет работать без заботы о плотности и разреженности.
Я не знаю много о фоне / развитии этого формата по сравнению с форматом svmlight, но в документах sklearn говорится, что этоТо же самое, и я могу подтвердить, что, по опыту, загружая все libsvm наборы данных с помощью вышеуказанной функции.