SPARK Производительность ухудшается при дополнительных нагрузках в локальном режиме - PullRequest
0 голосов
/ 02 января 2019

Я пытаюсь запустить задание apache spark sql (1.6) в локальном режиме на кластере из 3 узлов, и у меня возникают следующие проблемы при работе.

  1. Время выполнения для слоя дублирования увеличивается день ото дняпосле инкрементальной загрузки на уровне DL.
  2. Каждый день в каждую таблицу вставляется почти 150К записей.
  3. Мы пробовали по умолчанию, а также механизм сохранения «MEMORY AND DISK», но он работаетТо же самое в обоих случаях.
  4. Время выполнения влияет на другие таблицы, если мы сначала запустим большие таблицы.

Исключительное задание вызывается в стандартном формате и выполняется сценарий оболочки с использованием spark-Отправить и ниже sql запрос от моей работы искры, как показано ниже.

val result=sqlcontext.sql("CREATE TABLE "+DB+"."+table_name+" row format delimited fields terminated by '^' STORED as ORC tblproperties(\"orc.compress\"=\"SNAPPY\",\"orc.stripe.size\"='67108864') AS select distinct a.* from "+fdl_db+"."+table_name+" a,(SELECT SRL_NO,MAX("+INC_COL+") as incremental_col FROM "+fdl_db+"."+table_name+" group by SRL_NO) b where a.SRL_NO=b.SRL_NO and a."+INC_COL+"=b.incremental_col").repartition(100);

пожалуйста, дайте мне знать, если вам нужна дополнительная информация.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...