Самый эффективный способ чтения данных из oracle с использованием pyspark или sq oop import? - PullRequest
0 голосов
/ 09 марта 2020

У нас есть требование считывать данные из таблицы oracle для запуска заданий (dim и fct работают на hdfs). Они оба читают разные столбцы из одной таблицы.

Общее количество записей в таблице = ~ 13M

Чтобы оптимизировать описанный выше процесс, мы предложили два варианта:

  1. sq oop импортировать таблицу из oracle и сохранять ее в hdfs - pyspark (задания dim & fct) считывает относительные столбцы из hdfs.

    • Минусы: ресурсоемкие, дополнительные sq oop -job, загрузка на краевой узел.
  2. С помощью pyspark dataframe api установите соединение с oracle, используя jdb c.

    • Только для чтения обязательные столбцы для dims (4 ). &
    • Прочитать необходимые столбцы для fcts (12)

    • Минусы: Соединения выполняются дважды для двух заданий.

    • Плюсы: простота обслуживания, отсутствие зависимости от sq oop, отсутствие нагрузки на пограничный узел, дружественный к ресурсам.

Какой наиболее эффективный вариант? или вы думаете, есть какой-нибудь другой лучший вариант?

...