Я пытаюсь обработать очень большой файл CSV (4,2 ГБ) с помощью Pandas, просматривая файл на наличие экземпляров определенного значения.Учитывая большой размер этого файла, я попытался обработать его по частям, но у меня возникли проблемы при разработке алгоритма для поиска экземпляров значения.
По сути, у меня есть набор из 33 параметров, некоторые из которых можно найти в таблице 4,2 ГБ.У меня есть список из 2000 с лишним пациентов с пневмонией, и мне нужно найти первый экземпляр каждого параметра для каждого пациента.Конечной целью является создание новой таблицы, в которой по одной строке на пациента и каждый столбец представляют разные параметры.Чтобы заполнить эту таблицу, мне сначала нужно обработать очень большую таблицу.Большая таблица состоит из «Диаграммы событий» для каждого пациента - пациент может иметь сотни событий, а общая база данных включает около 40 000 пациентов.
Я надеюсь использовать новую таблицу для обучения алгоритму машинного обучения, чтобы предсказать продолжительность пребывания в отделении интенсивной терапии для пациентов.
До сих пор моя идея заключалась в следующем:
for each parameter:
for every row in chartevents:
for every patient:
if the row contains the parameter for that patient:
update the new table value for that patient and parameter
Очевидно, что это супер неэффективно, поэтому я надеялся, что кто-то знает лучший способ.Для получения дополнительной информации о данных, проверьте этот веб-сайт .