Я пытаюсь объединить некоторые сценарии; чтобы дать нам одно чтение БД, а не каждый скрипт, читающий одни и те же данные из Hive. Так что переходим к чтению один раз; обработать многие модели.
Я сохранил кадры данных и переделил выходные данные после каждой агрегации; но мне нужно, чтобы это было быстрее, во всяком случае, эти вещи замедлили это. У нас есть 20 ТБ + данных в день, поэтому я предполагал, что сохранение данных, если они будут прочитаны много раз, ускорит процесс, но это не так.
Кроме того, у меня много заданий это происходит из тех же данных, как показано ниже. Можем ли мы запустить их параллельно. Может ли определение и вывод DF2 происходить одновременно с определением DF3, чтобы ускорить его?
df = definedf....persist()
df2 = df.groupby....
df3 = df.groupby....
....
Можно ли определить глобально кэшированный фрейм данных, к которому могут обращаться другие сценарии?
Большое спасибо!