Потому что я не думаю, что это работает так, как мой супервайзер думает, что это работает.
Мы берем серию около 8 файлов CSV с FTP, и эти файлы довольно малы (менее 1 МБ),Он (думаю, вполне справедливо) обеспокоен тем, что размер кластера в HDFS будет потрачен впустую.Поэтому он хочет использовать процессор Merge Content для решения этой проблемы.Кажется, он верит, что процессор Merge Content будет «сопоставлять» файлы с одинаковыми именами, создавая один больший файл.
Чтобы уточнить: он хочет, чтобы это работало, если сегодня выйдет «sales_report.csv»и в каталоге уже есть «sales_report.csv», он хочет, чтобы новые данные из сегодняшнего «sales_report.csv» были добавлены как новые строки в существующий файл.Надеюсь, это имеет смысл.
Вместо этого я получаю совсем другие результаты.У меня настроен поток так, что он берет файлы с FTP, создает каталог в HDFS на основе папки, а затем подпапку на основе года.Когда я оставляю процессор MC вне этого, все это работает отлично.Когда я вставляю процессор MC, я получаю три файла - один из них имеет свое первоначальное имя, а два имеют длинную строку случайных символов.Мы используем настройки по умолчанию для процессора Merge Content.
Исходя из того, что я описал выше, звучит ли это так, как будто мы ищем MC-процессор?