Я создаю сценарий, который будет обрабатывать более 250+ ГБ данных из одной таблицы postgreSQL.Форма таблицы составляет ~ 150 столбцов х 74M строк (150x74M).Моя цель - каким-то образом просеять все данные и убедиться, что каждая запись в ячейке соответствует определенным критериям, которые мне будет поручено определить.После обработки данных я хочу преобразовать их в экземпляр AWS.Вот несколько сценариев, которые мне нужно будет рассмотреть:
- Как я могу убедиться, что каждая запись ячейки соответствует определенным критериям столбца, в котором она находится?Например, все записи в столбце «Дата» должны иметь формат «гггг-мм-дд» и т. Д.
- Какие инструменты / языки лучше всего подходят для обработки таких больших данных?Я часто использую Python и модуль Pandas для манипуляций с DataFrame, и мне известна функция
read_sql
, но я думаю, что эти большие данные просто займут слишком много времени для обработки в Python.
Я знаю, как вручную обрабатывать фрагменты данных в Python, однако я думаю, что это, вероятно, слишком неэффективно, и сценарий может занять более 12 часов.
Проще говоря или TLDR: я ищу простое, оптимизированное решение для манипулирования и проведения анализа контроля качества данных postgreSQL.