Как выполнить поиск в большом количестве файлов (предположим, 100 000 файлов), которые распределены по нескольким серверам в Had oop? - PullRequest
0 голосов
/ 16 июня 2020

Пример вопроса на собеседовании Apple:

Предположим, у вас есть 100 000 файлов, распределенных по нескольким серверам, и вы хотите обработать их все? Как бы вы это сделали в Had oop?

1 Ответ

1 голос
/ 17 июня 2020

Сначала поместите все файлы в Hdfs / (может быть s3) / hive, собрав их через sftp ftp et c ....

, тогда у вас будет единое хранилище hdfs. вы можете применить mapreduce или spark et c для их обработки в соответствии с вашими требованиями.

Никто ничего не может сделать, если у него есть большое количество источников / серверов данных вместо их сбора (так называемого приема данных) с последующей обработкой данных с использованием любых доступных платформ.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...