Возможно ли объединить множество файлов в Apache Flume? - PullRequest
0 голосов
/ 04 мая 2018

Наш сервер получает много файлов каждый момент. Размер файлов довольно маленький. Около 10 МБ. Наше руководство хочет сделать кластер Hadoop для анализа и хранения этих файлов. Но это не эффективно для хранения небольших файлов в hadoop. Есть ли какие-либо варианты в hadoop или в Flume, чтобы присоединить (сделать один большой файл) эти файлы? Большое спасибо за помощь.

1 Ответ

0 голосов
/ 05 мая 2018

Вот что мне приходит в голову:
1) Используйте «Источник каталогов» Flume. Этот источник позволяет загружать данные, помещая файлы для загрузки в каталог «спулинга» на диске. Запишите свои файлы в этот каталог.

2) Используйте любой канал для Flume: «память» или «Файл». Оба имеют свои преимущества и недостатки.

3) Используйте HDFS Sink для записи в HDFS.

«Источник каталога спулинга» будет переименовывать файл после загрузки (или, при необходимости, удалять). Данные также выживают после сбоя или перезапуска. Вот документация: https://flume.apache.org/FlumeUserGuide.html#spooling-directory-source

...