Количество ядер и ОЗУ, доступных для обработки данных, имеет значение больше, чем сам объем данных, поэтому ограничение заданий Hadoop внутри контейнеров фактически приводит к запуску небольших контейнеров JVM внутри этих контейнеров. Следовательно, ожидается, что предоставление одному полному компьютеру доступа для обработки одного и того же объема данных будет гораздо более вероятным для быстрой обработки, и я уверен, что есть способ написать тот же распределенный алгоритм без Hadoop
Кроме этогоЕсли сами данные не разделяемы или не меньше размера блока hdfs, то они все равно будут обрабатываться только одной задачей mapreduce. Вы не упомянули размер, но я подозреваю, что 200 точек данных - это всего лишь несколько МБ максимум