Я думаю, что sklearn можно использовать для больших данных, если техника верна. Если выбранные вами алгоритмы поддерживают part_fit или подход к онлайн-обучению, то вы на правильном пути. Размер chunk_size может повлиять на ваш успех
Эта ссылка может быть полезна ( Работа с большими данными в Python и NumPy, недостаточно оперативной памяти, как сохранить частичные результаты на диске? )
Еще одна вещь, которую вы можете сделать, это случайно выбрать, сохранять ли строку в вашем файле CSV ... и сохранить результат в файл .npy, чтобы он загружался быстрее. Таким образом, вы получаете выборку ваших данных, которая позволит вам начать играть с ними со всеми алгоритмами ... и решать проблему с большими данными на этом пути (или не делать вообще!) Иногда выборка с хорошим подходом достаточно хороша в зависимости от того, что вы хотите).