Я бы сказал обратное. Смысл массивных механизмов распределенной обработки, таких как Spark, Flink и т. Д., Заключается в том, что код, который вы пишете для обработки данных, будет работать для наборов данных произвольного размера. Вы можете сделать это на ВМ или на своем ноутбуке со 100 записями, и он будет работать более или менее так же, как если бы вы обрабатывали 100 миллиардов записей в кластере из 1000 узлов, предполагая, что ваши входные данные могут быть легко распараллелены и не слишком искажены. Я не уверен, почему у вас есть столько машин, доступных вам без четкой цели, но есть тонны общедоступных наборов данных, с которыми вы можете работать.