Почему базы данных, ориентированные на столбцы, такие как Vertica / InfoBright / GreenPlum, суетятся над Hadoop? - PullRequest
5 голосов
/ 25 ноября 2011

Какой смысл кормить кластер Hadoop и использовать этот кластер для подачи данных в хранилище данных Vertica / InfoBright?

Все эти поставщики продолжают говорить «мы можем соединиться с Hadoop», но я непонять в чем смысл.Каков интерес хранения в Hadoop и переноса в InfoBright?Почему бы не хранить приложения непосредственно в Infobright / Vertica DW?

Спасибо!

Ответы [ 9 ]

14 голосов
/ 28 ноября 2011

Зачем объединять решения?Hadoop обладает рядом замечательных возможностей (см. URL ниже).Эти возможности, тем не менее, не позволяют бизнес-пользователям быстро выполнять аналитику.Запросы, которые занимают от 30 минут до часов в Hadoop, доставляются с помощью Infobright за 10 секунд.

Кстати, ваш первоначальный вопрос не предполагал архитектуру MPP и по уважительной причине.Клиенты Infobright Liverail, AdSafe Media и InMobi, среди прочего, используют IEE вместе с Hadoop.

Если вы зарегистрируетесь в Промышленной белой книге http://support.infobright.com/Support/Resource-Library/Whitepapers/, вы увидите текущее состояние рынка, где выделены четыре предлагаемых варианта использования для Hadoop.Он был создан Уэйном Экерсоном, директором по исследованиям, Business Applications and Architecture Group, TechTarget, в сентябре 2011 года.

1) Создать онлайн-архив .
С Hadoop организациям не нужно удалять или отправлять данные в автономное хранилище;они могут поддерживать его в сети неограниченное время, добавляя обычные серверы для удовлетворения требований к хранению и обработке.Hadoop становится недорогой альтернативой для удовлетворения онлайн-требований к архивированию.

2) Заполните хранилище данных .
Организации также могут использовать Hadoop для анализа, интеграции и агрегирования больших объемов веб-данных или других типов данных, а затем отправлять их в хранилище данных, где как обычные, так и опытные пользователи могут запрашивать и анализировать данные с помощью знакомых инструментов BI.Здесь Hadoop становится инструментом ETL для обработки больших объемов веб-данных, прежде чем они попадают в корпоративное хранилище данных.

3) Поддержка аналитики.
Большой массив данных (т. Е.Интернет-разработчики) рассматривают Hadoop в первую очередь как аналитический движок для выполнения аналитических вычислений на больших объемах данных.Для запроса Hadoop аналитикам в настоящее время необходимо писать программы на Java или других языках и понимать MapReduce, платформу для написания распределенных (или параллельных) приложений.Преимущество здесь в том, что аналитики не ограничиваются SQL при формулировании запросов.SQL не поддерживает многие виды аналитики, особенно те, которые включают вычисления между рядами, которые распространены в анализе веб-трафика.Недостатком является то, что Hadoop ориентирован на пакетную обработку и не способствует итеративным запросам.

4) Запускать отчеты.
Ориентированная на пакет ориентация Hadoop делает его пригодным для выполнения регулярно запланированныхотчеты.Вместо того, чтобы создавать отчеты по сводным данным, организации теперь могут использовать их для необработанных данных, гарантируя наиболее точные результаты.

4 голосов
/ 25 ноября 2011

Существует несколько причин, по которым вы можете захотеть сделать это: 1. Стоимость за ТБ.Затраты на хранение в Hadoop намного дешевле, чем у Vertica / Netezza / greenplum и т.п.).Вы можете получить долгосрочное удержание в Hadoop и краткосрочные данные в аналитической БД 2. Возможности приема данных в hadoop (выполнение преобразований) лучше в программной аналитике Hadoop 3. (библиотеки, такие как Mahout ), так что вы можетесоздать расширенную текстовую аналитику 4. работа с неструктурированными данными

Базы данных MPP обеспечивают лучшую производительность в специальных запросах, лучше справляются со структурированными данными и подключаются к традиционным инструментам BI (OLAP и отчетность) - так что в основном Hadoop дополняетпредложение этих БД

3 голосов
/ 02 апреля 2014

Что делает совместное развертывание настолько эффективным для этого программного обеспечения?

Во-первых, обе платформы имеют много общего:

  • Специально созданный для преобразования и анализа больших данных
  • Использование архитектуры MPP для масштабирования с использованием аппаратного обеспечения, способный управлять ТБ через ПБ данных
  • Встроенная поддержка HA с низкими административными издержками

Hadoop идеально подходит для первоначального анализа поисковых данных, где данные часто доступны в HDFS и не содержат схем, и обычно достаточно пакетных заданий, тогда как Vertica идеально подходит для стилизованный интерактивный анализ, при котором известный аналитический метод должен неоднократно применяться к входящим пакетам данных.

Используя разъем Vertica Hadoop , пользователи могут легко перемещать данные между двумя платформами. Кроме того, одно аналитическое задание можно разбить на кусочки, которые используют возможности исполнения обеих платформ; например, в случае использования веб-аналитики данные JSON, генерируемые веб-серверами, первоначально выгружаются в HDFS. Затем выполняется задача сокращения карты для преобразования таких полуструктурированных данных в реляционные кортежи, а результаты загружаются в Vertica для оптимизации хранения и извлечения с помощью последующих аналитических запросов.

В чем основные отличия, которые делают Hadoop и Vertica взаимодополняющими при работе с большими данными.

  • Интерфейс и расширяемость

    Hadoop
    Программный интерфейс Hadoop Map-Reduce предназначен для разработчиков. Платформа известна своей многоязыковой поддержкой, а также готовыми пакетами аналитических библиотек, предоставляемыми сильным сообществом.
    Vertica
    Интерфейс Vertica соответствует отраслевым стандартам BI (SQL, ODBC, JDBC и т. Д.). Это позволяет технологам и бизнес-аналитикам использовать Vertica в своих аналитических сценариях использования. SDK является альтернативой парадигме сокращения карт и часто обеспечивает более высокую производительность.

  • Цепочка для инструментов / Экосистема



    Hadoop
    Hadoop и HDFS хорошо интегрируются со многими другими инструментами с открытым исходным кодом. Появляется его интеграция с существующими инструментами BI.
    Vertica
    Vertica интегрируется с инструментами BI благодаря своему стандартному интерфейсу. Через разъем Hadoop от Vertica данные могут передаваться параллельно между Hadoop и Vertica.

  • Управление хранением



    Hadoop
    Hadoop реплицирует данные 3 раза по умолчанию для HA. Он распределяет данные по кластеру компьютеров для балансировки нагрузки, но схема сегментации данных непрозрачна для конечных пользователей и не может быть настроена для оптимизации для аналитических заданий.
    Vertica
    Колоночное сжатие Vertica часто достигает 10: 1 в степени сжатия. Типичное развертывание Vertica реплицирует данные один раз для HA, и обе реплики данных могут иметь разную физическую структуру для оптимизации для более широкого диапазона запросов. Наконец, Vertica сегментирует данные не только для балансировки нагрузки, но и для сжатия и оптимизации рабочей нагрузки запросов.

  • оптимизация времени выполнения

    Hadoop
    Поскольку управление хранилищем HDFS не сортирует и не сегментирует данные способами, которые оптимизируют аналитическое задание, во время выполнения задания входные данные часто необходимо повторно сегментировать по кластеру и / или сортировать, что влечет за собой большой объем сетевого и дискового ввода-вывода .

    Vertica
    Макет данных часто оптимизируется для целевой нагрузки запросов во время загрузки данных, поэтому во время выполнения запроса происходит минимальное количество операций ввода-вывода. В результате Vertica предназначена для аналитики в реальном времени, а не для пакетной обработки данных.

  • Автонастройка

    Hadoop
    Карта-реПрограммы duce используют процедурные языки (Java, python и т. д.), которые обеспечивают разработчикам детальный контроль аналитической логики, но также требуют, чтобы разработчики тщательно оптимизировали задания в своих программах.
    Vertica
    Vertica Database Designer обеспечивает автоматическую настройку производительности с учетом входной рабочей нагрузки. Запросы указываются на декларативном языке SQL и автоматически оптимизируются колоночным оптимизатором Vertica.
3 голосов
/ 05 октября 2012

Hadoop - это больше платформа, чем БД.

Думайте о Hadoop как об аккуратной файловой системе, которая поддерживает множество запросов к различным типам файлов. Имея это в виду, большинство людей помещают необработанные данные в Hadoop и используют их в качестве промежуточного слоя в конвейере данных, где они могут жевать данные и передавать их в другие системы, такие как vertica или любую другую. У вас есть несколько преимуществ, которые можно возобновить до развязки .

Таким образом, Hadoop превращается в фактическую платформу хранения больших данных. Это просто, отказоустойчиво, хорошо масштабируется, легко подавать и извлекать из него данные. Поэтому большинство поставщиков пытаются распространить продукт среди компаний, которые, вероятно, установили Hadoop.

0 голосов
/ 03 декабря 2013

Какой смысл кормить кластер Hadoop и использовать этот кластер для подачи данных в хранилище данных Vertica / InfoBright?

Дело в том, что вы не хотели бы, чтобы ваши пользователи запускали запрос и ждали минуты, а иногда и часы, прежде чем вы вернетесь с ответом. Hadoop не может предоставить вам ответ на запрос в реальном времени. Хотя это меняется с появлением Impala от Cloudera и Stinger от Hortonworks. Это механизмы обработки данных в реальном времени через Hadoop.

Базовая система данных Hadoop, HDFS, позволяет распределять ваши данные и распределять их по узлам в вашем кластере. Фактически HDFS также можно заменить сторонним хранилищем данных, таким как S3. Дело в том, что Hadoop обеспечивает и хранение, и обработку. Так что вы можете использовать hadoop в качестве механизма хранения и извлекать данные в свое хранилище данных, когда это необходимо. Вы также можете использовать Hadoop для создания кубов и витрин и хранения этих витрин на складе.

Однако, с появлением Стингера и Импалы, сила этих утверждений в конечном итоге будет стерта. Так что следите.

0 голосов
/ 31 октября 2013

Неструктурированные данные по своей природе не подходят для загрузки в ваше традиционное хранилище данных.Задания Hadoop mapreduce могут извлекать структуры из файлов журналов (ex), а затем эти же данные можно перенести в DW для аналитики.Hadoop является пакетной обработкой, поэтому не подходит для обработки аналитических запросов.Таким образом, вы можете обработать ваши данные, используя hadoop, чтобы получить некоторую структуру, а затем подготовить запрос через ваш слой визуализации / sql.

0 голосов
/ 07 сентября 2012

Массивные параллельные базы данных, такие как Greenplum DB, отлично подходят для обработки огромных объемов структурированных данных. Hadoop отлично справляется с обработкой еще больших массивов неструктурированных данных, например, веб-сайтов.

В настоящее время тонна интересной аналитики объединяет эти оба типа данных, чтобы получить представление. Поэтому важно, чтобы эти системы баз данных могли интегрироваться с Hadoop.

Например, вы можете выполнять обработку текста в кластере Hadoop с помощью MapReduce до тех пор, пока у вас не появится какое-либо значение оценки для продукта или чего-либо еще. Это значение оценки затем может использоваться базой данных для объединения его с другими данными, которые уже хранятся в базе данных, или данными, которые были загружены в базу данных из других источников.

0 голосов
/ 27 ноября 2011

Чтобы немного расширить ответ Арнона, Hadoop был признан силой, которая не уходит и приобретает все большую популярность в организациях, во многих случаях благодаря массовым усилиям разработчиков.Базы данных MPP хорошо отвечают на вопросы, о которых мы знаем во время разработки, такие как «Сколько транзакций мы получаем в час по стране?».

Hadoop начинал как платформа для нового типа разработчика, который живет где-то между аналитиками и разработчиками, который может писать код, но также понимает анализ данных и машинное обучение.Базы данных MPP (столбцы или нет) очень плохо справляются с разработчиками этого типа, которые часто анализируют неструктурированные данные, используя алгоритмы, которые требуют слишком много ресурсов ЦП для работы в базе данных, или наборы данных, которые слишком велики.Огромная мощность процессора, необходимая для построения некоторых моделей, делает невозможным выполнение этих алгоритмов в любом традиционном защищенном БД.

Мой личный конвейер с использованием hadoop обычно выглядит следующим образом:

  1. Выполнитьколичество очень больших глобальных запросов в Hadoop, чтобы получить общее представление о данных и распределении переменных.
  2. Используйте Hadoop для создания меньшего набора данных только с интересующими меня данными.
  3. Экспортируйте меньший набор данных в реляционную БД.
  4. Выполните множество небольших запросов к реляционной БД, создайте таблицы Excel, иногда выполняйте небольшие R.

Помните, что этот рабочий процессработает только для «разработчика-аналитика» или «ученого-данных».У других пробег будет разным.

Возвращаясь к вашему вопросу из-за того, что такие люди, как я, отказываются от своих инструментов, эти компании ищут способы оставаться актуальными в эпоху, когда Hadoop является синонимом больших данных, самых крутых стартапов и передовых технологий.технологии (независимо от того, заработано ли это или нет, вы можете обсудить это между собой.) Кроме того, многие установки Hadoop на порядок или больше, чем развертывания MPP в организациях, что означает, что в Hadoop дольше сохраняется больше данных.

0 голосов
/ 25 ноября 2011

Я не пользователь Hadoop (просто пользователь Vertica / администратор БД), но я бы предположил, что ответом будет что-то вроде этого:

- У вас уже есть настройка с использованием Hadoop, и вы хотите добавить базу данных «Большие данные» для интенсивного аналитического анализа.

-Вы хотите использовать Hadoop для неаналитических функций и обработки, а также базу данных для анализа. Но это те же данные, поэтому нет необходимости в двух каналах.

...