Оценка и сравнение Hadoop для анализа бизнес-аналитики - PullRequest
2 голосов
/ 18 июня 2011

Я рассматриваю различные технологии для хранилищ данных и бизнес-аналитики, и наткнулся на этот радикальный инструмент под названием Hadoop. Похоже, Hadoop не был создан специально для целей BI, но есть ссылки на его потенциал в этой области. (http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488).

Как бы мало информации я не получал из Интернета, моя интуиция говорит мне, что hadoop может стать прорывной технологией в пространстве традиционных решений BI. По этой теме действительно мало информации, и поэтому я хотел собрать все мысли Гуру о потенциале Hadoop как инструмента BI по сравнению с традиционной бэкэнд-инфраструктурой BI, такой как Oracle Exadata, vertica и т. Д. . Для начала я хотел бы задать следующий вопрос -

  • Вопросы проектирования - Чем проектирование решения BI с помощью Hadoop будет отличаться от традиционных инструментов? Я знаю, что все должно быть иначе, так как я читаю, нельзя создавать схемы в Hadoop. Я также читал, что основным преимуществом будет полное исключение инструментов ETL для Hadoop (это правда?) Нужен ли нам Hadoop + pig + mahout для получения решения BI?

Спасибо и С уважением!

Редактировать - Разбивая на несколько вопросов. Начну с того, который я считаю самым бесом.

Ответы [ 4 ]

2 голосов
/ 20 июня 2011

Hadoop - отличный инструмент для решения бизнес-задач. Само по себе это не решение BI. Hadoop берет Data_A и выводит Data_B. Все, что нужно для Bi, но не в полезной форме, можно обработать с помощью MapReduce и вывести полезную форму данных. Будь то CSV, HIVE, HBase, MSSQL или что-либо еще, использованное для просмотра данных.

Я считаю, что Hadoop должен быть инструментом ETL. Вот для чего мы его используем. Мы каждый час обрабатываем файлы журналов и храним их в Hive, а также выполняем ежедневные агрегации, которые загружаются на сервер MSSQL и просматриваются через слой визуализации.

Основные конструктивные соображения, с которыми я столкнулся:
- Гибкость данных: Хотите ли вы, чтобы ваши пользователи просматривали предварительно агрегированные данные или имели возможность настраивать запрос и смотреть на данные так, как они хотят
- Скорость: Как долго вы хотите, чтобы ваши пользователи ждали данных? Улей (например) медленный. Для получения результатов требуются минуты, даже на довольно небольших наборах данных. Чем больше пройденных данных, тем больше времени потребуется для получения результата.
- Визуализация: Какой тип визуализации вы хотите использовать? Вы хотите изготовить на заказ много деталей или использовать что-то с полки? Какие ограничения и гибкость необходимы для вашей визуализации? Насколько гибкой и изменчивой должна быть визуализация?

НТН

Обновление: В ответ на комментарий @ Bhat о недостатке визуализации ...
Отсутствие инструмента визуализации, который позволил бы нам эффективно использовать данные, хранящиеся в HBase, был основным фактором при переоценке нашего решения. Мы сохранили необработанные данные в Hive, предварительно агрегировали данные и хранили их в HBase. Чтобы использовать это, мы собирались написать собственный соединитель (сделал эту часть) и слой визуализации. Мы посмотрели на то, что мы могли бы произвести, и что можно было бы приобрести на коммерческой основе, и пошли по коммерческому пути.
Мы по-прежнему используем Hadoop в качестве инструмента ETL для обработки наших блогов, и это здорово. Мы просто отправляем необработанные данные ETL в коммерческую базу данных больших данных, которая займет место Hive и HBase в нашем проекте.

Hadoop на самом деле не может сравниться с MSSQL или другим хранилищем данных. Hadoop не выполняет никакого хранения (игнорируя HDFS), он обрабатывает данные. Запуск MapReduces (что делает Hive) будет выполняться медленнее, чем MSSQL (или около того).

2 голосов
/ 20 июня 2011

Hadoop очень хорошо подходит для хранения колоссальных файлов, которые могут представлять таблицы фактов. Эти таблицы можно разделить, поместив отдельные файлы, представляющие таблицу, в отдельные каталоги. Hive понимает такие файловые структуры и позволяет запрашивать их как секционированные таблицы. Вы можете связать свои вопросы BI с данными Hadoop в форме запросов SQL через Hive, но вам все равно нужно будет написать и запустить случайное задание MapReduce.

0 голосов
/ 29 октября 2013

Мы создаем матрицу сравнения для инструментов BI для больших данных / Hadoop http://hadoopilluminated.com/hadoop_book/BI_Tools_For_Hadoop.html

Он находится в стадии разработки и хотел бы получить любой вклад.

(отказ от ответственности: я являюсь автором этой онлайн-книги)

0 голосов
/ 22 июня 2011

С точки зрения бизнеса, вы должны рассмотреть Hadoop, если у вас много малоценных данных.Есть много случаев, когда решения RDBMS / MPP не являются экономически эффективными.Вы также должны рассматривать Hadoop как серьезный вариант, если ваши данные не структурированы (например, HTML).

...