Question

Я пытаюсь запустить задание apache spark sql (1.6) в локальном режиме на кластере из 3 узлов, и у меня возникают следующие проблемы при работе.

Время выполнения для слоя дублирования увеличивается день ото дняпосле инкрементальной загрузки на уровне DL.
Каждый день в каждую таблицу вставляется почти 150К записей.
Мы пробовали по умолчанию, а также механизм сохранения «MEMORY AND DISK», но он работаетТо же самое в обоих случаях.
Время выполнения влияет на другие таблицы, если мы сначала запустим большие таблицы.

Исключительное задание вызывается в стандартном формате и выполняется сценарий оболочки с использованием spark-Отправить и ниже sql запрос от моей работы искры, как показано ниже.

val result=sqlcontext.sql("CREATE TABLE "+DB+"."+table_name+" row format delimited fields terminated by '^' STORED as ORC tblproperties(\"orc.compress\"=\"SNAPPY\",\"orc.stripe.size\"='67108864') AS select distinct a.* from "+fdl_db+"."+table_name+" a,(SELECT SRL_NO,MAX("+INC_COL+") as incremental_col FROM "+fdl_db+"."+table_name+" group by SRL_NO) b where a.SRL_NO=b.SRL_NO and a."+INC_COL+"=b.incremental_col").repartition(100);

пожалуйста, дайте мне знать, если вам нужна дополнительная информация.

SPARK Производительность ухудшается при дополнительных нагрузках в локальном режиме

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

SPARK Производительность ухудшается при дополнительных нагрузках в локальном режиме

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов