Нет, это не должно быть в HDFS.Например, задания, которые нацелены на HBase, используя его извлечение записей TableInputFormat по сети из узлов HBase в качестве входных данных для заданий на карту.DbInputFormat может использоваться для извлечения данных из базы данных SQL в задание.Вы могли бы создать формат ввода, который бы выполнял что-то вроде чтения данных с монтирования NFS.
На практике вы хотите избежать передачи данных по сети, если можете.Производительность MR намного выше, если вы можете хранить данные локально на узлах, где выполняется задание, так как пропускная способность диска> пропускная способность сети.