Получение конкретных данных из большой таблицы панд - PullRequest
0 голосов
/ 25 ноября 2018

Я пытаюсь обработать очень большой файл CSV (4,2 ГБ) с помощью Pandas, просматривая файл на наличие экземпляров определенного значения.Учитывая большой размер этого файла, я попытался обработать его по частям, но у меня возникли проблемы при разработке алгоритма для поиска экземпляров значения.

По сути, у меня есть набор из 33 параметров, некоторые из которых можно найти в таблице 4,2 ГБ.У меня есть список из 2000 с лишним пациентов с пневмонией, и мне нужно найти первый экземпляр каждого параметра для каждого пациента.Конечной целью является создание новой таблицы, в которой по одной строке на пациента и каждый столбец представляют разные параметры.Чтобы заполнить эту таблицу, мне сначала нужно обработать очень большую таблицу.Большая таблица состоит из «Диаграммы событий» для каждого пациента - пациент может иметь сотни событий, а общая база данных включает около 40 000 пациентов.

Я надеюсь использовать новую таблицу для обучения алгоритму машинного обучения, чтобы предсказать продолжительность пребывания в отделении интенсивной терапии для пациентов.

До сих пор моя идея заключалась в следующем:

for each parameter:
    for every row in chartevents:
        for every patient:
            if the row contains the parameter for that patient:
                update the new table value for that patient and parameter

Очевидно, что это супер неэффективно, поэтому я надеялся, что кто-то знает лучший способ.Для получения дополнительной информации о данных, проверьте этот веб-сайт .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...