Отображение данных в Большой словарь, съедая мой баран - PullRequest
0 голосов
/ 17 января 2020

Это был бы отмеченный. Мои данные состоят из нескольких миллионов записей с полями, такими как пользовательский агент, IP-адреса и т. Д., Состоящими из 10 столбцов. Каждый раз уникальные строки преобразуются в целые числа перед подачей в ML-модели для обучения и сохраняются с помощью pickle. Данные передаются постепенно, а словари отбираются и используются для сопоставления нового набора данных. Поскольку словарь становится громоздким, я сталкиваюсь с проблемами с использованием оперативной памяти только в последних 2 полях, упомянутых выше. Не могли бы вы предложить какую-либо альтернативу для этого условия и почему есть всплеск, хотя большая память доступна.

Объем памяти - входной словарь 64 ГБ имеет размер входного файла 2 ГБ, около 5 ГБ с длиной 32432769

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...