Question

Теперь у меня есть 10 ГБ данных для обучения модели в sklearn, но у моего компьютера есть только 8 ГБ памяти, поэтому у меня есть другие способы пойти помимо инкрементального классификатора.

Mohammad Mohtashim Khan · Answer 1 · 19 июня 2019

Я думаю, что sklearn можно использовать для больших данных, если техника верна. Если выбранные вами алгоритмы поддерживают part_fit или подход к онлайн-обучению, то вы на правильном пути. Размер chunk_size может повлиять на ваш успех

Эта ссылка может быть полезна ( Работа с большими данными в Python и NumPy, недостаточно оперативной памяти, как сохранить частичные результаты на диске? )

Еще одна вещь, которую вы можете сделать, это случайно выбрать, сохранять ли строку в вашем файле CSV ... и сохранить результат в файл .npy, чтобы он загружался быстрее. Таким образом, вы получаете выборку ваших данных, которая позволит вам начать играть с ними со всеми алгоритмами ... и решать проблему с большими данными на этом пути (или не делать вообще!) Иногда выборка с хорошим подходом достаточно хороша в зависимости от того, что вы хотите).

Как модель в sklearn обрабатывает большие наборы данных в python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как модель в sklearn обрабатывает большие наборы данных в python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы