Это очень далеко от предполагаемого использования Hadoop. Hadoop ожидает, что все его узлы будут полностью доступны и подключены к сети для оптимальной пропускной способности - а не то, что вы получаете с рабочими станциями. Более того, он даже не работает в Windows (вы можете использовать его с Cygwin, но я не знаю никого, кто использовал бы его для «производства» - кроме как на клиентских машинах, выполняющих задания).
Hadoop делает такие вещи, как хранение фрагментов данных на нескольких узлах и пытается планировать все вычисления с этими данными на этих узлах; в среде разделения работы это означает, что задача, для которой нужны эти данные, будет хотеть выполняться на этих трех рабочих станциях - независимо от того, что их пользователи делают в данный момент. Напротив, проекты «очистки цикла» хранят все данные в другом месте и отправляют их и задачу на любой узел, который доступен в данный момент; это позволяет им лучше относиться к машинам, но несет очевидные затраты на передачу данных.