Каковы некоторые из наиболее эффективных рабочих процессов для обработки «больших данных» (250+ ГБ) из баз данных postgreSQL? - PullRequest
0 голосов
/ 28 мая 2019

Я создаю сценарий, который будет обрабатывать более 250+ ГБ данных из одной таблицы postgreSQL.Форма таблицы составляет ~ 150 столбцов х 74M строк (150x74M).Моя цель - каким-то образом просеять все данные и убедиться, что каждая запись в ячейке соответствует определенным критериям, которые мне будет поручено определить.После обработки данных я хочу преобразовать их в экземпляр AWS.Вот несколько сценариев, которые мне нужно будет рассмотреть:

  • Как я могу убедиться, что каждая запись ячейки соответствует определенным критериям столбца, в котором она находится?Например, все записи в столбце «Дата» должны иметь формат «гггг-мм-дд» и т. Д.
  • Какие инструменты / языки лучше всего подходят для обработки таких больших данных?Я часто использую Python и модуль Pandas для манипуляций с DataFrame, и мне известна функция read_sql, но я думаю, что эти большие данные просто займут слишком много времени для обработки в Python.

Я знаю, как вручную обрабатывать фрагменты данных в Python, однако я думаю, что это, вероятно, слишком неэффективно, и сценарий может занять более 12 часов.

Проще говоря или TLDR: я ищу простое, оптимизированное решение для манипулирования и проведения анализа контроля качества данных postgreSQL.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...