У нас есть ящик, в котором каждый день хранятся терабайты данных (10-20 ТБ), где каждый файл на диске может быть от мегабайт до гигабайт.
Мы хотим отправить все эти файлы в набор «коробок для пиццы», где они будут использовать и обрабатывать файлы.
Кажется, я не могу найти ничего, что было бы создано для обработки такого количества данных, кроме distcp (hadoop). Robocopy / etc не подойдет.
Кто-нибудь знает решение, которое может справиться с этим типом делегирования (распределить работу между коробками для пиццы) и имеет надежную передачу файлов?