Расположение данных, если HDFS не используется - PullRequest
2 голосов
/ 07 февраля 2012

Что происходит с функцией локальности данных части Hadoop Map / Reduce, когда вы предоставляете ей другое хранилище, отличное от HDFS, например сервер MySql и т. Д.? Другими словами, я понимаю, что Hadoop Map / Reduce использует локальность данных, чтобы попытаться запустить задачу карты на том же узле, что и данные, но когда данные хранятся в SQL Server, локальные данные на узле задачи отсутствуют, так как все данные находятся в узле сервера sql. Итак, мы теряем локальность данных в этом случае или определение локальности данных меняется? Если это изменится, каково новое определение?

1 Ответ

4 голосов
/ 07 февраля 2012

Нет данных о местонахождении, если данные не находятся в кластере.Все данные должны быть скопированы из удаленного источника.Это так же, как если бы задачу нельзя было запустить на узле, который содержит данные в HDFS.Есть несколько форматов ввода, которые используют удаленные источники, включая S3, HBase и DB.Если вы можете поместить свои данные в HDFS, это здорово.Я использую Mongo в качестве удаленного источника довольно регулярно для небольших объемов данных, которые часто обновляются, и я был доволен результатами.

...