В настоящее время наша система находится в стадии живого тестированияИтак, нам нужно проверить, совпадает ли набор таблиц, заполненных в рабочей среде, с таблицами, заполненными в песочнице (тест).На данный момент мы написали запрос для каждого сравнения таблиц, а затем запустили его в клиенте sql, чтобы проверить его.В будущем будет еще несколько таблиц для проверки.Я думал об автоматизации процесса в python, предоставляя имена таблиц функции, которая затем может загрузить две таблицы в кадры данных и затем выполнить сравнение, которое может выделить различия.
В некоторых таблицах 2,7 миллиона строкза день и шириной имея 400 столбцов.Когда я пытался загрузить данные (2,7 м строк * 400 столбцов) в фрейм данных, я получаю сообщение об ошибке, так как не хватает памяти, когда я выполняю свой запрос в Jupyter, где у меня ограничено только 20 ГБ.какие варианты здесь?Являются ли рамки данных Pandas единственным способом сравнения этого большого набора данных?или есть какая-нибудь другая библиотека для достижения того же?