У меня есть код Scala, который я запускаю в spark-shell, чтобы извлечь данные из файлов json и загрузить сначала в промежуточную таблицу HIVE, а затем извлечь данные из промежуточной таблицы и загрузить в финальную главную таблицу в HIVE.
Я использую следующие команды:
//read json to DF
val df = hiveContext.read.schema(schema1).json(file)
//DF to Staging
df.write.mode("append").saveAsTable("stg")
//Staging to Final
hiveContext.sql("insert into final select distinct columns from stg left outer join final on stg.id = final.id where stg.id is not null and final.id is null")
Я хочу понимать количество записей, прочитанных / записанных на каждом этапе.Для json to DF я понимаю, что могу сделать df.count () , но как насчет оставшихся двух этапов.Как мне получить счетчик saveAsTable и вставить в операторы?