У меня есть вопрос о внутренней работе Spark.
Если я определяю фрейм данных из таблицы Hive, например, df1 = spark_session.table ('db.table'); эта таблица читается только один раз?
Что я имею в виду, если я создал 4 или 5 новых фреймов данных из df1 и вывел их все в отдельные файлы, это эффективнее, чем запускать их все как разные искровые файлы?
Является ли это более эффективным, чем приведенная ниже диаграмма? Это приводит к меньшей нагрузке на Hive, потому что мы читаем данные один раз, или это теперь, как это работает?
Чем это: