Создание приложения ETL с сохранением состояния с помощью Python - PullRequest
0 голосов
/ 02 января 2019

Мне поручено создать приложение ETL, которое обрабатывает записи с метками времени, и я пытаюсь сделать это, используя Python и Postgres.Я нахожусь в точке, где у меня есть работающее приложение, но я хочу посмотреть, есть ли способ ускорить обработку.Имейте в виду, что эти данные зависят от состояния, поэтому транзакции позже в процессе используют данные, которые были сгенерированы предыдущими транзакциями.Я уже прошел процесс разбиения данных на части для обеспечения параллельной обработки, но процесс по-прежнему выполняется только в качестве наибольшего фрагмента, и я не могу разбивать фрагменты дальше.Заранее извиняюсь за неопределенность, но я ищу несколько советов о том, как оптимизировать это приложение.

Процесс начинается с чтения одной записи транзакции и поиска в справочной таблице содержимого входных и выходных данных этогосделка.В справочной таблице хранится состояние, поэтому я всегда использую самые последние данные для ввода и обновляю их на основе результатов.Выходные данные процесса являются результатом некоторых вычислений, основанных на бизнес-логике, и записываются в базу данных Postgres в виде кусков.

Я понимаю, что не предоставил никакого кода, и я немного расплывчат, но на самом делеценю любые советы.Некоторые мысли, которые у меня были, были связаны с Redis, а также с удалением панд из скрипта Python.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...