В настоящее время я экспериментирую с задачей ML, которая включает в себя тренировку классификационной модели под наблюдением.На сегодняшний день у меня есть ~ 5 миллионов обучающих примеров и ~ 5 миллионов примеров для перекрестной проверки.Каждый пример имеет на данный момент 46 функций, однако я бы хотел создать еще 10 в ближайшем будущем, поэтому любое решение должно оставить некоторые возможности для улучшения.
Моя проблема заключается в следующем: какой инструмент мне использовать?использовать для решения этой проблемы?Я хотел бы использовать случайные леса или SVM, однако я боюсь, что последний может быть слишком медленным в моем случае.Я рассмотрел Mahout, но отвернулся, так как, похоже, требуется определенное количество настроек в сочетании с работой со скриптами командной строки.Я бы предпочел написать код непосредственно для некоторой (хорошо документированной!) Библиотеки или определить мою модель с графическим интерфейсом.
Я должен также указать, что я ищу что-то, что будет работать в Windows (без таких вещей, как cygwin), и что решения, которые хорошо работают с .NET, высоко ценятся.
Вы можете себе представить, что когда придет время, код будет запущен на Cluster Compute Eight ExtraБольшой экземпляр на Amazon EC 2 , поэтому приветствуется все, что широко использует оперативную память и многоядерные процессоры.
Последнее, но непо крайней мере, я укажу, что мой набор данных является плотным (в нем нет пропущенных значений / все столбцы имеют значение для каждого вектора)