Ошибка памяти говорит о том, что вы превысили объем памяти вашей системы, например, с набором данных в несколько ГБ. Возможно, CountVectorizer может взорвать размер? Может потребоваться другая, более мощная машина. В качестве альтернативы вы можете повысить эффективность использования памяти благодаря многопроцессорной обработке, меньшему количеству операций копирования и т. Д.
Наконец, нехватка памяти pandas
является целью проекта Dask
. Проверьте их: https://dask.org/, у них может быть шаблон, который может достичь вашей цели.
Если все это не помогло, и вы все еще не можете разместить свою работу в памяти, pyspark
может быть для вас. Это проект, ориентированный на распределенные данные и операции ML.