Question

У меня есть код Scala, который я запускаю в spark-shell, чтобы извлечь данные из файлов json и загрузить сначала в промежуточную таблицу HIVE, а затем извлечь данные из промежуточной таблицы и загрузить в финальную главную таблицу в HIVE.

Я использую следующие команды:

//read json to DF
  val df = hiveContext.read.schema(schema1).json(file)
//DF to Staging
  df.write.mode("append").saveAsTable("stg")
//Staging to Final
  hiveContext.sql("insert into final select distinct columns from stg left outer join final on stg.id = final.id where stg.id is not null and final.id is null")

Я хочу понимать количество записей, прочитанных / записанных на каждом этапе.Для json to DF я понимаю, что могу сделать df.count () , но как насчет оставшихся двух этапов.Как мне получить счетчик saveAsTable и вставить в операторы?

Вставьте счетчики для SaveAsTable и вставьте INTO

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Вставьте счетчики для SaveAsTable и вставьте INTO

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы