Pandas для сравнения данных из таблиц базы данных (mysql) и csvs - PullRequest
0 голосов
/ 04 марта 2020

Я ищу эффективный способ сравнения данных из таблиц базы данных (mysql) и csvs. Предпочтение состоит в том, чтобы использовать кадры данных для сравнения данных и обнаружения любых «отсутствующих обновлений» в базе данных.

Размер CSV варьируется от 40 МБ до 3,5 ГБ, а таблицы могут содержать до нескольких сотен (200-300) столбцов и текущий максимальный счетчик строк в самой большой таблице составляет 600 миллионов. Мое самое большое беспокойство и ограничение - использование памяти. Я сделал это сравнение, чтобы определить недостающие записи только по ключевым столбцам, из базы данных и CSV, которые работали хорошо, но с максимальным использованием памяти. Чтобы определить какие-либо обновления, которые не были применены в базе данных, мне нужно сделать полное сравнение строк, которые по памяти будут довольно дорогими.

Есть ли более разумный способ, который вы хотели бы порекомендовать, или если вы сделали что-то похожее с пользовательским сценарием или инструментом?

Любые рекомендации будут высоко оценены:)

...