Я пытаюсь восстановить некоторые архивные файлы резервных копий, сохраненные в формате паркета, и хочу один раз прочитать их и записать данные в базу данных PostgreSQL.
Я знаю, что файлы резервных копий сохранены с использованием spark, но для меня есть строгое ограничение: я не могу установить spark на компьютере с БД или прочитать файл паркета с помощью spark на удаленном компьютере и записать его в базу данных с помощью spark_df.write.jdbc
. все должно происходить на компьютере с БД, и в отсутствие spark и Hadoop только с использованием сценариев Postgres и Bash.
моя структура файлов выглядит примерно так:
foo/
foo/part-00000-2a4e207f-4c09-48a6-96c7-de0071f966ab.c000.snappy.parquet
foo/part-00001-2a4e207f-4c09-48a6-96c7-de0071f966ab.c000.snappy.parquet
foo/part-00002-2a4e207f-4c09-48a6-96c7-de0071f966ab.c000.snappy.parquet
..
..
Я ожидаю чтения данныхи схему из каждой папки паркета, например foo
, создайте таблицу, используя эту схему, и запишите данные в созданную таблицу, используя только bash и Postgres CLI.