Обучение модели логистической регрессии по частям для больших данных - PullRequest
0 голосов
/ 18 февраля 2019

Мой набор данных состоит из 1,6 миллиона строк и 17000 столбцов после предварительной обработки.Я хочу использовать логистическую регрессию для этих данных, однако процесс прерывается каждый раз, когда я загружаю набор данных.Есть ли способ, которым я могу тренировать модель логистической регрессии в блоках, с коэффициентами, обновляемыми на каждой итерации.Sklearn поддерживает какую-либо технику для моей проблемы?

1 Ответ

0 голосов
/ 18 февраля 2019

сначала прочитайте это .время для обучения LR на вашем наборе данных .... немного высока.чтобы избежать этого, вы можете использовать параметр теплого старта LR в sklearn и циклически перебирать куски ваших данных.

warm_start: bool, default: False Если установлено значение True, повторно использовать решение предыдущеговызовите, чтобы соответствовать в качестве инициализации, в противном случае просто стереть предыдущее решение.Бесполезно для либлинейного решателя.См. Глоссарий.

(от здесь )

, а точнее:

warm_start При повторной установке оценщикав одном и том же наборе данных, но для нескольких значений параметров (например, чтобы найти значение, максимизирующее производительность, как при поиске по сетке), может быть возможно повторно использовать аспекты модели, извлеченные из предыдущего значения параметра, что экономит время.Когда warm_start имеет значение true, атрибуты существующей подогнанной модели a используются для инициализации новой модели в последующем вызове, чтобы подогнать .

(из здесь )

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...