Параллельные / распределенные вычисления = СКОРОСТЬ << Hadoop делает это действительно очень простым и дешевым, так как вы можете просто использовать несколько обычных машин !!! </p>
За прошедшие годы объемы дискового хранилища значительно возросли, но скорости чтения данных не поддерживаются. Чем больше данных у вас на одном диске, тем медленнее поиск.
Hadoop - это умный вариант подхода «разделяй и властвуй» к решению проблем.
По сути, вы разбиваете проблему на более мелкие порции и назначаете порции нескольким различным компьютерам для параллельной обработки , ускоряя процесс вместо перегрузки одной машины. Каждая машина обрабатывает свое собственное подмножество данных, и в итоге результат объединяется. Hadoop на одном узле не даст вам скорости, которая имеет значение.
Чтобы увидеть преимущества Hadoop, у вас должен быть кластер, содержащий не менее 4-8 обычных компьютеров (в зависимости от размера ваших данных) в одной стойке.
Вам больше не нужно быть супер-гениальным инженером параллельных систем, чтобы использовать преимущества распределенных вычислений. Просто знай, Хэдуп, с Ульем, и тебе пора.