Как модель в sklearn обрабатывает большие наборы данных в python? - PullRequest
1 голос
/ 10 июня 2019

Теперь у меня есть 10 ГБ данных для обучения модели в sklearn, но у моего компьютера есть только 8 ГБ памяти, поэтому у меня есть другие способы пойти помимо инкрементального классификатора.

1 Ответ

0 голосов
/ 19 июня 2019

Я думаю, что sklearn можно использовать для больших данных, если техника верна. Если выбранные вами алгоритмы поддерживают part_fit или подход к онлайн-обучению, то вы на правильном пути. Размер chunk_size может повлиять на ваш успех

Эта ссылка может быть полезна ( Работа с большими данными в Python и NumPy, недостаточно оперативной памяти, как сохранить частичные результаты на диске? )

Еще одна вещь, которую вы можете сделать, это случайно выбрать, сохранять ли строку в вашем файле CSV ... и сохранить результат в файл .npy, чтобы он загружался быстрее. Таким образом, вы получаете выборку ваших данных, которая позволит вам начать играть с ними со всеми алгоритмами ... и решать проблему с большими данными на этом пути (или не делать вообще!) Иногда выборка с хорошим подходом достаточно хороша в зависимости от того, что вы хотите).

...