Question

У меня большой набор данных (> 1 ТБ), который я хочу обучить, используя GradientBoostingRegressor из Scikit-Learn .

Поскольку размер данных намного превышает объем моей оперативной памятиЯ подумываю разбить данные на куски и последовательно «подогнать» их по очереди.

Я понимаю, что если установить для атрибута warm_start значение True, то веса сохранятся после подгонки ().Однако, кажется, что мне нужно увеличивать количество оценок также для каждого последующего вызова fit ().

Можно ли сначала подогнать () все порции данных, прежде чем увеличивать количество оценок наодин?

Как лучше всего решить мою проблему, т.е.подгонка сверхбольших данных?

Alessandro · Answer 1 · 28 ноября 2018

Возможно, вы захотите попробовать метод partial_fit из оценки SGD.Это не GBM, но он работает очень хорошо, и для размера данных, которые у вас есть, вы можете получить хорошие результаты с линейной моделью и правильным взаимодействием.

Как разместить последовательные партии в Scikit-Learn?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как разместить последовательные партии в Scikit-Learn?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы