Python, сравнивающий миллионы строк и сотни столбцов между двумя таблицами из реляционной БД - PullRequest
0 голосов
/ 14 мая 2019

В настоящее время наша система находится в стадии живого тестированияИтак, нам нужно проверить, совпадает ли набор таблиц, заполненных в рабочей среде, с таблицами, заполненными в песочнице (тест).На данный момент мы написали запрос для каждого сравнения таблиц, а затем запустили его в клиенте sql, чтобы проверить его.В будущем будет еще несколько таблиц для проверки.Я думал об автоматизации процесса в python, предоставляя имена таблиц функции, которая затем может загрузить две таблицы в кадры данных и затем выполнить сравнение, которое может выделить различия.

В некоторых таблицах 2,7 миллиона строкза день и шириной имея 400 столбцов.Когда я пытался загрузить данные (2,7 м строк * 400 столбцов) в фрейм данных, я получаю сообщение об ошибке, так как не хватает памяти, когда я выполняю свой запрос в Jupyter, где у меня ограничено только 20 ГБ.какие варианты здесь?Являются ли рамки данных Pandas единственным способом сравнения этого большого набора данных?или есть какая-нибудь другая библиотека для достижения того же?

1 Ответ

0 голосов
/ 14 мая 2019

Для обработки таких данных я бы рекомендовал использовать что-то вроде Hadoop, а не pandas / python.Это не очень хороший ответ, но я пока не могу комментировать.

...