Я впервые использую потоковую передачу Spark.У нас есть сценарий использования, когда мы направляем файлы размером 10 КБ в кластер искрового потока, которые обрабатываются.Мы также хотим объединить эти входящие документы размером 10 КБ в файл, пока его размер не достигнет 30 МБ, а затем загрузить этот RDD на S3.
Я представляю себе следующее:
- Мы будем кэшировать СДР, который будет постоянно дополняться входящими документами по 10 КБ.
- Перед операцией добавления, если размер текущего кешируетсяСДР составляет 30 МБ, он загрузит его на S3 и создаст новый СДР, добавит к нему и кеширует его с тем же именем, в противном случае просто добавит в существующий кеш.
Может ли этот подход работать?Пожалуйста, исправьте, если мое понимание кеширования потокового кеша неверно.