установка hadoop и написание программы сокращения карт - PullRequest
0 голосов
/ 10 октября 2018

для предмета Я получил это задание.

Чтобы создать кластер hadoop и написать карту, уменьшите количество программ.

У меня есть ноутбук с 4 Гб оперативной памяти и процессором i3, я загрузил образ vmware с веб-сайта cloudera.Но предварительно настроенная виртуальная машина сама занимает 4 ГБ ОЗУ.

В тексте задания сказано:

установите Hadoop Distribution of Cloudera (http://www.cloudera.com/hadoop/) в псевдораспределенном режиме или используйте VMWare Image, предоставленный Cloudera, для ознакомления с Hadoopособенно с распределенной файловой системой HDFS и реализацией программ MapReduce на Java. "

Я загрузил образ vmware с веб-сайта cloudera, но предварительно настроенная виртуальная машина сама занимает 4 ГБ ОЗУ.

Я пытался уменьшить размер памяти виртуальной машины с 4 ГБ до 1 ГБ, но это было нехорошо; я имею в виду, что не мог запустить виртуальную машину cloudera.

У меня много программ mapreduce и java, которыезадание говорит мне сделать. Я не могу понять ни одного из них. Например,

  • делает "grep" на нескольких машинах.
  • Подсчет частоты слов на файлах, распределенных на нескольких машинахв кластере hadoop и т. д.

Я хочу знать, как настроить hadoop, чтобы он работал на windows8.1машина, чтобы я мог запустить эти программы

1 Ответ

0 голосов
/ 11 октября 2018

Cloudera VM требует 6-8 ГБ для правильной работы.

Когда я проходил курс обучения Hadoop в университете, нам было необходимо купить больше оперативной памяти для всех компьютеров с объемом менее 8 ГБ, и у нас был i5, но виртуальная машина все еще очень медленная.

Даже для простой установки Hadoop и запуска одних служб вне виртуальной машины по умолчанию потребуется минимум 4 ГБ.Это не относится к вашей ОС и другим сервисам (ваш браузер и ОС, вероятно, уже занимают 1 ГБ каждый по отдельности).


Что касается фактической установки Hadoop в Windows, я бы не советовал, но грубыми шагами являются

  1. Установка Java.Добавьте JAVA_HOME в качестве переменной среды
  2. Установите и запустите сервер SSH на вашем компьютере с Windows.Убедитесь, что вы можете подключиться к localhost:22 с помощью PuTTy, например
  3. Затем загрузите и настройте Hadoop с помощью сайта Apache, а не случайные учебники в других местах, которые могут быть устаревшими.Начните с Single Node , затем настройте псевдо-распределение.Как только вы извлечете загрузку Hadoop, добавьте HADOOP_PREFIX и HADOOP_CONF_DIR=%HADOOP_PREFIX%/conf в качестве двух переменных среды

  • , выполнив "grep" на нескольких машинах
  • Подсчет частоты слов в файлах

Оба эти примера приведены в документации.Не уверен, что вы действительно должны писать этот код.


FWIW, вы на самом деле ненужен работающий кластер Hadoop для запуска MapReduce.Конфигурации Hadoop по умолчанию будут считываться из вашей локальной файловой системы.Кроме того, ваша виртуальная машина в любом случае является одной машиной, поэтому требование «работать на нескольких машинах» не имеет особого смысла.

...