У меня есть простой кластер из 2 узлов (мастер на одном, рабочие на обоих). Я пытался использовать:
python disco/util/distrfiles.py bigtxt /etc/nodes > bigtxt.chunks
Чтобы распространять файлы (которые работали нормально).
Я ожидал, что это будет означать, что процессы будут порождаться и работать только с локальными данными, но иногда кажется, что они пытаются получить доступ к данным на другом компьютере.
Вместо этого я полностью скопировал каталог данных. Все работало нормально, пока не уменьшалась порция. Я получил ошибку:
CommError: Unable to access resource (http://host:8989/host/8b/sup@4f6:d2f6:34b3b/map-index.txt):
Похоже, что к элементу ожидается прямой доступ через http. Но я не думаю, что это происходит правильно. Должны ли файлы передаваться по протоколу http? Должен ли я иметь распределенную ФС для многоузлового MapReduce?