Как сделать ETL на миллионных строках данных, используя python? - PullRequest
1 голос
/ 10 апреля 2020

У меня есть база данных pgAdmin, которая содержит миллионы строк в формате geo json. Используя эту таблицу, я создаю панель инструментов Tableau. Поскольку строки содержат данные в формате geo json, я должен запросить их следующим образом:

select jsondata ->> 'id' as id,
jsondata -> 'properties' ->> 'qq',,
jsondata -> 'properties' ->> 'www',
jsondata -> 'properties' ->> 'eeee',
jsondata -> 'properties' ->> 'qwer' ,
jsondata -> 'properties' ->> 'yyy',
split_part(jsondata -> 'properties' -> '@ab:com:abc:wxy'->'tags'->>0,'@',2),
split_part(jsondata -> 'properties' -> '@ab:com:abc:wxy'->'tags'->>1,'@',2),
split_part(jsondata -> 'properties' -> '@ab:com:abc:wxy'->'tags'->>2,'@',2),
split_part(jsondata -> 'properties' -> '@ab:com:abc:wxy'->'tags'->>3,'@',2),
split_part(jsondata -> 'properties' -> '@ab:com:abc:wxy'->'tags'->>4,'@',2),
split_part(jsondata -> 'properties' -> '@ab:com:abc:wxy'->'tags'->>5,'@',2),
split_part(jsondata -> 'properties' -> '@ab:com:abc:wxy'->'tags'->>6,'@',2),
TIMESTAMP 'epoch' + cast(cast(jsondata -> 'properties'->'@ab:com:abc:wxy'->>'createdAt'as bigint)/1000 as int) * INTERVAL '1 second' as create_date,
TIMESTAMP 'epoch' + cast(cast(jsondata -> 'properties'->'@ab:com:abc:wxy'->>'updatedAt'as     bigint)/1000 as int) * INTERVAL '1 second' as Update_date
from schema.table_name

Когда данные были в тысячах строк, я использовал для подключения эту базу данных в прямом эфире с таблицами, но теперь данные увеличились и это будет расти день ото дня. Я хочу создать инструментальную панель таблиц, используя процесс ETL, я думаю о Talend , но я хочу сделать это программно, используя python.

Может кто-нибудь предложить мне, как это сделать?

1 Ответ

0 голосов
/ 10 апреля 2020

Вы можете использовать Pyspark. Официальный сайт: http://spark.apache.org/. Spark предназначен для обработки и анализа больших данных и предлагает API на многих языках. Spark - хороший выбор для ETL, если данные, с которыми вы работаете, очень большие, а также скорость и размер ваших операций с данными. Есть и другие доступные библиотеки. Но вы сказали, что хотите использовать большие данные, Pyspark сделает вашу работу.

Вы также можете попробовать mara. Это легкий Python ELT инструмент. Это мощный и простой в освоении и использовании. Он использует PostgreSQL в качестве механизма обработки данных, который в дальнейшем поможет вам сделать ваш проект, как вы уже используете Postgre. https://github.com/mara

...