Я пытаюсь запустить задание apache spark sql (1.6) в локальном режиме на кластере из 3 узлов, и у меня возникают следующие проблемы при работе.
- Время выполнения для слоя дублирования увеличивается день ото дняпосле инкрементальной загрузки на уровне DL.
- Каждый день в каждую таблицу вставляется почти 150К записей.
- Мы пробовали по умолчанию, а также механизм сохранения «MEMORY AND DISK», но он работаетТо же самое в обоих случаях.
- Время выполнения влияет на другие таблицы, если мы сначала запустим большие таблицы.
Исключительное задание вызывается в стандартном формате и выполняется сценарий оболочки с использованием spark-Отправить и ниже sql запрос от моей работы искры, как показано ниже.
val result=sqlcontext.sql("CREATE TABLE "+DB+"."+table_name+" row format delimited fields terminated by '^' STORED as ORC tblproperties(\"orc.compress\"=\"SNAPPY\",\"orc.stripe.size\"='67108864') AS select distinct a.* from "+fdl_db+"."+table_name+" a,(SELECT SRL_NO,MAX("+INC_COL+") as incremental_col FROM "+fdl_db+"."+table_name+" group by SRL_NO) b where a.SRL_NO=b.SRL_NO and a."+INC_COL+"=b.incremental_col").repartition(100);
пожалуйста, дайте мне знать, если вам нужна дополнительная информация.