Я хотел использовать Flume для отправки большого количества файлов в hadoop, и у меня была идея использовать спул, но у меня есть несколько вопросов, подобных этому:
При отправкефайлы в hadoop, файлы в спуле никуда не перемещаются, что заставляет меня задаться вопросом, есть ли новый файл в спуле, как Flume распознает старые и новые файлы?
Как Flume после загрузки файла в hadoop будет перемещать файлы в буфере в другую папку?Или у Flume есть механизм для резервного копирования файлов?
- Я знаю, что у Flume есть некоторые свойства, которые помогают работать с регулярными выражениями, но я не знаю, поддерживает ли Flume отправку файлов в hadoop и сортировку этих файлов.в каталогах на основе регулярных выражений?Если да, то как мне это сделать?
- Поддерживает ли Flume отправку файлов в hadoop и их классификацию по каталогам на основе даты отправки?(Я прочитал эту часть в HDFS Sink, но когда я попробовал, это не удалось)
- При использовании Flume для отправки файлов в hadoop, могу ли я исправить содержимое файла, например, добавив имена файлов в поток данных или изменив";"into "|"?
- Могу ли я использовать какой-либо API или какой-либо инструмент для мониторинга передачи файлов Flume в hadoop?Например, во время передачи файлов посмотрите, сколько файлов было передано в hadoop или сколько файлов было успешно отправлено и сколько файлов отправлено в hadoop.
- Записывает ли Flume журналы транзакций с помощью hadoop?Например, сколько файлов было загружено в hadoop, ...
Я знаю, что слишком много просил, но я действительно запутался с Flume и мне очень нужна ваша помощь.С нетерпением ждем вашей помощи.Спасибо