pandas - обработка огромного файла столбец за столбцом - PullRequest
0 голосов
/ 04 августа 2020

У меня огромный фрейм данных 1194 строки и 14 000 000 столбцов. Мне нужна сумма каждого столбца, и я сохраняю только имя столбца и сумму, если сумма больше 1. Когда я пытаюсь загрузить текстовый файл (который имеет размер + 30 ГБ), процесс завершается. текстовый файл разделен табуляцией и выглядит примерно так:

cell 17472131 17472132 17472133..
cell_0 1 0 1
cell_1 0 0 0
cell_2 0 1 1
cell_3 1 0 0
.
.
.

есть ли способ сделать это в столбце, подобном моде, поэтому я не использую много памяти?

1 Ответ

1 голос
/ 05 августа 2020

pandas.read_csv() имеет параметры skiprows и nrows для чтения указанного блока c строк. руководство по функциям здесь

Я предлагаю настроить массив сумм (размер 14 млн), а затем выполнить цикл для чтения нескольких строк за раз, обновления сумм и затем загрузки следующих нескольких строк.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...