Как разместить последовательные партии в Scikit-Learn? - PullRequest
0 голосов
/ 28 ноября 2018

У меня большой набор данных (> 1 ТБ), который я хочу обучить, используя GradientBoostingRegressor из Scikit-Learn .

Поскольку размер данных намного превышает объем моей оперативной памятиЯ подумываю разбить данные на куски и последовательно «подогнать» их по очереди.

Я понимаю, что если установить для атрибута warm_start значение True, то веса сохранятся после подгонки ().Однако, кажется, что мне нужно увеличивать количество оценок также для каждого последующего вызова fit ().

Можно ли сначала подогнать () все порции данных, прежде чем увеличивать количество оценок наодин?

Как лучше всего решить мою проблему, т.е.подгонка сверхбольших данных?

1 Ответ

0 голосов
/ 28 ноября 2018

Возможно, вы захотите попробовать метод partial_fit из оценки SGD.Это не GBM, но он работает очень хорошо, и для размера данных, которые у вас есть, вы можете получить хорошие результаты с линейной моделью и правильным взаимодействием.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...