У меня есть алгоритм рекурсивного искрения, который применяет скользящее окно из 10 дней к набору данных.
Исходный набор данных загружается из таблицы Hive, секционированной по дате.
На каждой итерации aкомплексный набор операций применяется к набору данных, содержащему десятидневное окно.
Затем последняя дата вставляется обратно в исходную таблицу Hive, а следующая дата загружается из Hive и объединяется с оставшимися девятью днями.
Я понимаю, что мне нужно прервать линию искры, чтобы DAG не стал неуправляемым.
Я считаю, что у меня есть два варианта:
- Проверка - включает в себя дорогостоящую запись вHDFS.
Преобразование в rdd и обратно
spark.createDataset (myDS.rdd)
Есть ли недостатки при использовании второговариант - я предполагаю, что это операция в памяти и, следовательно, дешевле.