Определенная работа, которую я выполняю, должна собрать некоторые метаданные из БД (MySQL, хотя это не так актуально) перед обработкой некоторых больших файлов HDFS. Эти метаданные будут добавлены к данным в файлах и переданы на последующие этапы сопоставления / объединения / сокращения.
Мне было интересно, где может быть "правильное" место для размещения этого запроса. Мне нужно, чтобы метаданные были доступны, когда маппер начинается, но размещение его там кажется излишним, так как каждый маппер будет выполнять тот же запрос. Как я могу (если вообще) выполнить этот запрос один раз и поделиться его результатами среди всех мапперов? Существует ли общий способ обмена данными между всеми узлами, выполняющими задачу (кроме записи в HDFS)? спасибо.