В моем проекте есть требование обрабатывать файлы сообщений (.txt) в режиме реального времени.Я имел обыкновение получать файлы сообщений от третьих лиц в режиме реального времени в нашу зону посадки, и оттуда мы должны забрать файлы для обработки.Ниже предлагается поток данных.
Источник -> Зона посадки -> HDFS -> PySpark -> Паркет / CSV -> Хранилище данных
Всякий раз, когда я вижу новый файлв зоне приземления это должно быть перенесено и перенесено в HDFS, а затем последующий процесс должен обрабатывать его в реальном времени.Могу ли я подойти к этому варианту использования потоковой передачи PySpark?Если да, пожалуйста, поделитесь некоторыми деталями и ссылками, если это возможно.