Flume - это постоянно работающий процесс, который отслеживает пути или выполняет функции над файлами.Он более сопоставим с Logstash или Fluentd, поскольку он управляется конфигурационным файлом, не запрограммирован, а также развернут и настроен.
Желательно, чтобы вы анализировали указанные CSV-файлы во время их чтения, затем конвертировались в более самоописываемый формат, такой как Avro, и помещали его в HDFS.См. Процессоры Morphlines Flume
Spark, с другой стороны, вам придется вручную писать весь этот код от начала до конца.Хотя Spark Streaming может делать то же самое, вы обычно не запускаете его так же, как Flume, скорее вы работаете в YARN или другом кластерном планировщике, где у вас нет контроля над тем, на каком сервере он работает, потому что в конце дня,Вы должны заботиться только о наличии ограничений по ресурсам.
По-прежнему существуют другие альтернативы, такие как Apache Nifi или Streamsets, которые позволяют создавать больше визуальных конвейеров, а не писать код