У нас есть требование считывать данные из таблицы oracle для запуска заданий (dim и fct работают на hdfs). Они оба читают разные столбцы из одной таблицы.
Общее количество записей в таблице = ~ 13M
Чтобы оптимизировать описанный выше процесс, мы предложили два варианта:
sq oop импортировать таблицу из oracle и сохранять ее в hdfs - pyspark (задания dim & fct) считывает относительные столбцы из hdfs.
- Минусы: ресурсоемкие, дополнительные sq oop -job, загрузка на краевой узел.
С помощью pyspark dataframe api установите соединение с oracle, используя jdb c.
Какой наиболее эффективный вариант? или вы думаете, есть какой-нибудь другой лучший вариант?