Если вы планируете использовать Spark 2.4+, то go с фреймами данных
- Да, фреймы данных являются нестабильными, они заканчиваются sh после завершения работы Spark, но вы можете сохранить их на диск как файлы паркета и запросить их позже через SPARK / HIVE ro любой инструмент, который может прочитать формат файла партера.
- В случае сбоя программы, DataFrame не подлежит восстановлению, если вам не удастся сохранить их до cra sh, который вы можете прочитать позже, когда ваше задание Spark снова будет запущено.
- Фрейм данных распределен. Структура данных используется и понимается Spark. Так что да, он разделен / разделен между узлами Spark.
- Во фрейме данных есть разделы для настройки производительности запроса и минимизации перетасовки данных.
Помимо вышеуказанных точек, Spark имеет встроенный механизм проверки наведения указателей чтобы убедиться, что нет потери данных, когда ваша работа падает. Деталь до c можно найти на Spark