как работает netezza?как это сравнить с Hadoop? - PullRequest
6 голосов
/ 29 декабря 2010

Хотите понять, является ли Netezza или Hadoop правильным выбором для следующих целей:

  • Извлечение файлов фидов из нескольких онлайн-источников значительного размера, в разы превышающих ГБ.

  • Очистите, отфильтруйте, преобразуйте и вычислите дополнительную информацию из каналов.

  • Создание метрик в разных измерениях подобно тому, как это делают кубы хранилища данных, и

  • Помогает веб-приложениям быстрее получать доступ к конечным данным / метрикам с помощью SQL или любых других стандартных механизмов.

Ответы [ 4 ]

5 голосов
/ 28 октября 2011

Как это работает :
Когда данные загружаются в устройство, оно интеллектуально разделяет каждую таблицу по 108 SPU.
Как правило, жесткий диск - самая медленная часть компьютера. Представьте, что 108 из них раскручиваются одновременно, загружая маленький кусок стола. Вот как Netezza достигает 500 гигабайт в час времени загрузки.
После того, как часть таблицы загружена и сохранена в каждом SPU (компьютере на плате с интегральной схемой), каждый столбец анализируется для получения описательной статистики, такой как минимальные и максимальные значения. Эти значения хранится в каждом из 108 SPU вместо индексов, которые требуют времени для создания, обновления и использования ненужное пространство.
Представьте себе свою среду без необходимости создавать индексы. Когда приходит время запрашивать данные, главный компьютер внутри Appliance запрашивает SPU, чтобы узнать, какие те содержат необходимые данные.
Возвращаются только те SPU, которые содержат соответствующую информацию, поэтому меньшее перемещение информации по сети на сервер Business Intelligence / Analytics. Для объединения данных это становится еще лучше.
Устройство распределяет данные в нескольких таблицах по нескольким SPU. ключом. Каждый SPU содержит частичные данные для нескольких таблиц. Он объединяет части каждой таблицы локально в каждом SPU возвращая только локальный результат. Все «локальные результаты» собираются внутри кабинета, а затем возвращается на сервер Business Intelligence / Analytics в качестве результата запроса. Эта методология также способствует к истории скорости.
Ключ ко всему этому - «меньшее перемещение данных по сети». Устройство только возвращает данные необходимо вернуться на сервер Business Intelligence / Analytics в сети организации на 1000/100 МБ.
Это сильно отличается от традиционной обработки, когда программное обеспечение Business Intelligence / Analytics обычно извлекает большую часть данных из базы данных для обработки на своем собственном сервере. База данных делает работать для определения необходимых данных, возвращая меньший результат подмножества в бизнес-аналитику / аналитику сервер.
Резервное копирование и резервирование
Чтобы понять, как данные и система настроены для почти 100% безотказной работы, важно понять, внутренний дизайн. Он использует внешнюю, самую быструю, третья часть каждого 400-гигабайтного диска для хранения данных и поиск. Одна треть диска хранит описательную статистику, а другая треть хранит горячие данные в резервной копии другие СПУ. Каждый шкаф устройства также содержит 4 дополнительных SPU для автоматического переключения при отказе любого из 108 SPU,.
Взял от http://www2.sas.com

3 голосов
/ 30 декабря 2010

Я бы рассмотрел разделение дизайна пакетного процесса ETL и дальнейших запросов SQL.Я думаю, что следующие цифры важны для оценки решений:

a) Сколько данных строк вы хотите обрабатывать ежедневно?
b) Сколько данных строк вы хотите хранить в системе?c) Каков будет размер набора данных RDBMS.
d) Какие типы SQL у вас будут?Здесь я имею в виду - есть специальные SQL или хорошо спланированные отчеты.Еще вопросы - нужны ли вам jons между двумя большими столами.

С ответами на вышеуказанные вопросы можно будет дать лучшие ответы.Например, я бы рассмотрел Netezza как вариант, когда вам нужны объединения очень больших таблиц, и hadoop - если вам нужно хранить терабайты данных.

2 голосов
/ 04 января 2011

Из ваших ответов может показаться, что Netezza может больше соответствовать вашим потребностям.Он отлично обрабатывает специальные запросы, а в новейшую версию их программного обеспечения встроена поддержка свертки и кубов.Кроме того, Netezza работает в масштабе терабайт данных, поэтому вы должны быть более чем способны обрабатывать имеющиеся у вас данные.

1 голос
/ 19 декабря 2014

Если вы имеете дело со сценарием ELT, где вам нужно загрузить огромные объемы файлов и обработать их позже, например, фильтровать, преобразовать и загрузить в традиционные базы данных для аналитики, тогда вы можете использовать hadoop для загрузки файлов, а затем Netezza в качестве целипромежуточная площадка или хранилище данных.С помощью hadoop вы можете поместить все свои файлы в HDFS, а затем прочитать с помощью инструмента ETL для преобразования, фильтрации и т. Д. Или использовать Hive SQL для записи запроса данных в этих файлах.Однако HIve хранилища данных на основе hadoop не поддерживает обновления и не поддерживает все операторы SQL.Следовательно, лучше читать эти файлы из HDFS, применять фильтры, преобразовывать и загружать результат в традиционное устройство хранилища данных, такое как netezza, для написания ваших запросов для кубов.

Если вы ежедневно загружаете ГБ данных в netezza с площадкой посадки, постановки и витрины, то, скорее всего, у вас будет много места.В этом сценарии вы можете сделать так, чтобы ваше место приземления находилось на hadoop, а затем сделать ваши места для постановки и выхода на рынок netezza.Если ваши запросы просты, и вы не выполняете очень сложную фильтрацию и т. Д. Или обновления источника могут быть возможны, вы можете управлять всем с помощью hadoop.

В заключение, hadoop идеально подходит для огромных объемов данных, но не поддерживает всефункциональность традиционного хранилища данных.

Вы можете проверить эту ссылку, чтобы увидеть различия: http://dwbitechguru.blogspot.ca/2014/12/how-to-select-between-hadoop-vs-netezza.html

...