Pandas проверка данных - PullRequest
       2

Pandas проверка данных

0 голосов
/ 07 апреля 2020

У меня есть фрейм данных с 4 столбцами и CSV-файл с теми же 4 столбцами. Фрейм данных извлекает поля из базы данных и создается с использованием какого-то сложного сценария, который я не понимаю. Во всяком случае, я пытаюсь сделать некоторые проверки данных / сравнения с 2 объектами. Итак, у меня есть df_db, и я преобразовал свой CSV в новый фрейм данных df_csv. Столбцы фрейма данных: [дата, идентификатор, значение1, значение2]. Для всех намерений и целей есть 3 уникальные даты и 5 уникальных идентификаторов, и каждая дата имеет эти 5 идентификаторов (это мой текущий случай, но может быть произвольное количество дат и идентификаторов). Я хочу, чтобы дата и идентификатор были равны, чтобы взять значение1 из обоих источников, вычесть 2 и сохранить его в новом столбце нового фрейма данных. Аналогично для столбца 2. Я делаю очень неэффективный процесс фильтрации по заданному значению в моих 2 фреймах данных, затем выполняю внутреннее объединение по дате и затем манипулирую значениями 1 и 2, как описано выше. Затем я объединяю свои индивидуальные результаты и конвертирую обратно в CSV, чтобы я мог легко прочитать результаты. Есть ли более простой способ сделать это? У одного из моих коллег более 200 строк кода, и он обычно дает сбой, потому что в некоторых ячейках есть NaN, и при вычитании 1 или более NaN я получаю исключение, и должен предположить, что есть более простой способ. Я прошу прощения за то, что не прикрепил мой код, но он не очень читабелен.

Для справки значения

       date: 01/02/20, 01/03/20, 01/04/20; 
       identifier: Sam, Dave, Karl, Seth, Will 
       value1: Floats from 1-100
       value2: Floats from 1-100 

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...