Cloudera VM требует 6-8 ГБ для правильной работы.
Когда я проходил курс обучения Hadoop в университете, нам было необходимо купить больше оперативной памяти для всех компьютеров с объемом менее 8 ГБ, и у нас был i5, но виртуальная машина все еще очень медленная.
Даже для простой установки Hadoop и запуска одних служб вне виртуальной машины по умолчанию потребуется минимум 4 ГБ.Это не относится к вашей ОС и другим сервисам (ваш браузер и ОС, вероятно, уже занимают 1 ГБ каждый по отдельности).
Что касается фактической установки Hadoop в Windows, я бы не советовал, но грубыми шагами являются
- Установка Java.Добавьте
JAVA_HOME
в качестве переменной среды - Установите и запустите сервер SSH на вашем компьютере с Windows.Убедитесь, что вы можете подключиться к
localhost:22
с помощью PuTTy, например - Затем загрузите и настройте Hadoop с помощью сайта Apache, а не случайные учебники в других местах, которые могут быть устаревшими.Начните с Single Node , затем настройте псевдо-распределение.Как только вы извлечете загрузку Hadoop, добавьте
HADOOP_PREFIX
и HADOOP_CONF_DIR=%HADOOP_PREFIX%/conf
в качестве двух переменных среды
- , выполнив "grep" на нескольких машинах
- Подсчет частоты слов в файлах
Оба эти примера приведены в документации.Не уверен, что вы действительно должны писать этот код.
FWIW, вы на самом деле ненужен работающий кластер Hadoop для запуска MapReduce.Конфигурации Hadoop по умолчанию будут считываться из вашей локальной файловой системы.Кроме того, ваша виртуальная машина в любом случае является одной машиной, поэтому требование «работать на нескольких машинах» не имеет особого смысла.