Это был бы отмеченный. Мои данные состоят из нескольких миллионов записей с полями, такими как пользовательский агент, IP-адреса и т. Д., Состоящими из 10 столбцов. Каждый раз уникальные строки преобразуются в целые числа перед подачей в ML-модели для обучения и сохраняются с помощью pickle. Данные передаются постепенно, а словари отбираются и используются для сопоставления нового набора данных. Поскольку словарь становится громоздким, я сталкиваюсь с проблемами с использованием оперативной памяти только в последних 2 полях, упомянутых выше. Не могли бы вы предложить какую-либо альтернативу для этого условия и почему есть всплеск, хотя большая память доступна.
Объем памяти - входной словарь 64 ГБ имеет размер входного файла 2 ГБ, около 5 ГБ с длиной 32432769