В компании, в которой я работаю, каждый день приходится обрабатывать несколько тысяч файлов, что занимает несколько часов.Операции, в основном, требуют значительных ресурсов процессора, например, преобразование PDF в изображения с высоким разрешением и последующее создание множества различных размеров таких изображений.
Каждая из этих задач требует много ресурсов ЦП, и поэтому мы не можем просто запустить много экземпляров на одной машине, потому что не будет никакой вычислительной мощности, доступной для всего.Таким образом, на завершение всего требуется несколько часов.
Наиболее очевидная вещь, которую я вижу, это разделение набора файлов и одновременная обработка их на нескольких машинах (5, 10, 15 машин).Пока не знаю сколько нужно будет).
Я не хочу изобретать велосипед и создавать менеджер для задачи (и при этом я не хочу хлопот), но я не уверен, какой инструмент мне следует использовать.
Хотя у нас нет больших данных, для начала я посмотрел на Hadoop (мы работаем в Amazon), и его возможности по обработке узлов кажутся интересными.Однако я не знаю, имеет ли смысл его использовать.Я также смотрю на Hazelcast, но у меня пока нет никакого опыта с этим или концепциями.
Что было бы хорошим подходом для этой задачи?