Question

У меня огромный фрейм данных 1194 строки и 14 000 000 столбцов. Мне нужна сумма каждого столбца, и я сохраняю только имя столбца и сумму, если сумма больше 1. Когда я пытаюсь загрузить текстовый файл (который имеет размер + 30 ГБ), процесс завершается. текстовый файл разделен табуляцией и выглядит примерно так:

cell 17472131 17472132 17472133..
cell_0 1 0 1
cell_1 0 0 0
cell_2 0 1 1
cell_3 1 0 0
.
.
.

есть ли способ сделать это в столбце, подобном моде, поэтому я не использую много памяти?

Ruslan S. · Answer 1 · 05 августа 2020

pandas.read_csv() имеет параметры skiprows и nrows для чтения указанного блока c строк. руководство по функциям здесь

Я предлагаю настроить массив сумм (размер 14 млн), а затем выполнить цикл для чтения нескольких строк за раз, обновления сумм и затем загрузки следующих нескольких строк.

pandas - обработка огромного файла столбец за столбцом

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

pandas - обработка огромного файла столбец за столбцом

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов