интеграция CSV-файла с Flume против искры - PullRequest
0 голосов
/ 02 октября 2018

У меня есть проект по интеграции файлов CSV с серверов партнеров в наш кластер Hadoop.

Для этого я обнаружил, что Flume и Spark могут это сделать.

Я знаю, чтоSpark предпочтительнее, когда вам нужно выполнить преобразование данных.

Мой вопрос: в чем разница между Flume и Spark в логике интеграции?
Есть ли разница в производительности при импорте файлов CSV?

1 Ответ

0 голосов
/ 03 октября 2018

Flume - это постоянно работающий процесс, который отслеживает пути или выполняет функции над файлами.Он более сопоставим с Logstash или Fluentd, поскольку он управляется конфигурационным файлом, не запрограммирован, а также развернут и настроен.

Желательно, чтобы вы анализировали указанные CSV-файлы во время их чтения, затем конвертировались в более самоописываемый формат, такой как Avro, и помещали его в HDFS.См. Процессоры Morphlines Flume

Spark, с другой стороны, вам придется вручную писать весь этот код от начала до конца.Хотя Spark Streaming может делать то же самое, вы обычно не запускаете его так же, как Flume, скорее вы работаете в YARN или другом кластерном планировщике, где у вас нет контроля над тем, на каком сервере он работает, потому что в конце дня,Вы должны заботиться только о наличии ограничений по ресурсам.

По-прежнему существуют другие альтернативы, такие как Apache Nifi или Streamsets, которые позволяют создавать больше визуальных конвейеров, а не писать код

...