Hadoop на сервере Windows - PullRequest
       23

Hadoop на сервере Windows

15 голосов
/ 22 января 2009

Я подумываю об использовании hadoop для обработки больших текстовых файлов на моих существующих серверах Windows 2003 (около 10 четырехъядерных компьютеров с 16 ГБ ОЗУ)

Вопросы:

  1. Есть ли хорошее руководство по настройке кластера hadoop в Windows?

  2. Каковы требования? Java + Cygwin + SSHD? Что-нибудь еще?

  3. HDFS, хорошо ли он работает на Windows?

  4. Я бы хотел использовать hadoop в потоковом режиме. Любой совет, инструмент или трюк для разработки моего собственного картографа / редуктора в c #?

  5. Что вы используете для отправки и мониторинга заданий?

Спасибо

Ответы [ 3 ]

9 голосов
/ 23 апреля 2009

Хотя это не тот ответ, который вы, возможно, захотите услышать, я настоятельно рекомендую переназначить машины, скажем, на серверы Linux, и запустить там Hadoop. Вы получите пользу от уроков, опыта и тестирования, проведенных на этой платформе, и потратите свое время на решение бизнес-задач, а не операционных проблем.

Тем не менее, вы все еще можете написать свою работу в C #. Поскольку Hadoop поддерживает реализацию потоковой передачи, вы можете написать свою работу на любом языке. С платформой Mono вы сможете взять практически любой код .NET, написанный на платформе Windows, и просто запустить тот же двоичный файл в Linux.

Вы также можете довольно легко получить доступ к HDFS из Windows - хотя я не рекомендую запускать службы Hadoop в Windows, вы, безусловно, можете запустить клиент DFS с платформы Windows для копирования файлов в распределенную файловую систему и из нее.

Для отправки и отслеживания заданий, я думаю, что вы в основном сами по себе ... Я не думаю, что для управления заданиями Hadoop созданы какие-либо хорошие системы общего назначения.

9 голосов
/ 20 февраля 2009

Из документации Hadoop :

Win32 поддерживается как разработка платформа . Распределенная операция имеет не был хорошо протестирован на Win32, так что не поддерживается как продукция платформа .

Что, я думаю, переводится как: «Ты сам по себе».

Тем не менее, может быть, если вы не испытываете проблем с установкой Cygwin и Java-прокладки, согласно странице Getting Started вики Hadoop :

Также можно запустить Hadoop демоны как службы Windows, использующие Java Service Wrapper (скачать это отдельно). Это все еще требует Cygwin будет установлен как Hadoop требуется команда df.

Я думаю, суть в том, что это не звучит невозможно, но вы бы плыли вверх по течению. Я уже выполнил несколько установок Hadoop (на Linux для производства, Mac для dev), и я не стал бы беспокоиться о Windows, когда она так проста на других платформах.

2 голосов
/ 16 сентября 2009

Если вы ищете карту / уменьшить, вы можете попробовать посмотреть на новую структуру MySpace Map / Reduction, которая работает на Windows http://qizmt.myspace.com/

...