У меня есть сценарий в моем проекте, где я читаю сообщения темы kafka, используя версию spark-sql-2.4.1.Я могу обработать день, используя структурированную потоковую передачу.Как только данные получены и после обработки мне нужно сохранить данные в соответствующие файлы паркета в хранилище hdfs.
Я могу хранить и читать файлы паркета, у меня было время запуска от 15 секунд до 1 минуты.Эти файлы очень малы по размеру, что приводит к большому количеству файлов.
Эти паркетные файлы должны быть прочитаны последними по запросам кустов.
Итак 1) Работает ли эта стратегия в производственной среде?или это приводит к возникновению каких-либо небольших проблем с файлами позже?
2) Каковы наилучшие практики для обработки / разработки сценариев такого типа, т.е. отраслевого стандарта?
3) Как обычно происходит такое?обрабатываются в производстве?
Спасибо.