Netezza, Teradata, DB2 Parallel / Enterprise, ... против Hadoop или других? - PullRequest
1 голос
/ 18 января 2010

Я смотрю на создание некоторой инфраструктуры хранилищ данных / запросов, прямо сейчас поверх решений Map / Reduce, таких как Hadoop.

Однако меня поражает, что вся работа по M / R просто повторяет то, что ребята из RDBMS решили за последние 20 лет с параллельными базами данных SQL. Реализации параллельного SQL масштабируют операции чтения и записи по узлам, как и M / R, но дополнительно уже содержат тонкости из обычных баз данных (SQL, существующие библиотеки интеграции и т. Д.).

Проблема в том, что вы, похоже, не находите клиентов тех компаний, которые много публикуют в Интернете. Итак, кто-нибудь здесь имеет опыт работы с такими решениями и может дать мне некоторое представление и / или ссылки?

Ответы [ 3 ]

4 голосов
/ 19 января 2010

Я использовал Netezza и Hadoop. И иметь подержанные знания Infobright, базы данных столбцов.

Netezza - это настоящая база данных, в которой реализованы свойства ACID, которые имеют как стоимость, так и выгоду. Netezza движется к тому, чтобы позволить большему количеству M / R-кода работать с данными таблицы с новой архитектурой twinfin В предыдущей версии устройства они поддерживали пользовательские функции и агрегаты. В новой версии, которая запускает linux на SPU и использует процессоры Intel, открывается дверь, чтобы сделать больше пользовательского кода, близкого к данным. Мой опыт работы с Netezza был очень положительным - и технология, и компания.

Hadoop - это чисто картографическое вычисление. Это не несет стоимости свойств базы данных ACID. Так что это действительно другой зверь, чем Netezza. В зависимости от модели использования это может быть лучше и, конечно, дешевле, чем Netezza. Hadoop поддерживает Hbase и Hive, которые могут обеспечить вам удобство запросов при меньших затратах.

Другой разработчик в нашей команде оценил Infobright, так что это из вторых рук, и обнаружил, что производительность загрузки низкая, а некоторые агрегации медленные. Он имеет некоторые параллели с Netezza (например, карты зон используются в Netezza, чтобы помочь сузить область сканирования). Infobright - это открытый исходный код как для сообщества, так и для поддерживаемой корпоративной версии.

Существует гораздо больше того, что можно сказать в контексте вашей конкретной проблемы - возможно, за рамками этого форума. Надеюсь, это поможет.

1 голос
/ 19 января 2010

Вы не указали, на какие вопросы вы пытаетесь ответить своими запросами или как структурированы ваши данные. Прежде чем выбрать какое решение использовать, вам, вероятно, нужно подумать об этих двух вещах.

Вы правы: основные поставщики СУБД предлагают кластерные решения; как для параллельной обработки, так и для высокой доступности. У них уже была эта технология, и, вероятно, ее использует любое предприятие с большим количеством данных. Когда вы покупаете ($$$) продукт, он предоставит вам много документации и поможет вам настроить его (больше $$$), если вы можете себе это позволить.

СУБД хороши для онлайн-транзакций (OLTP); отвечая на вопросы о конкретных рядах (где живет Мария?); ответы на некоторые вопросы типа резюме (сколько мы продали в первом квартале и т. д.) Хотя они могут быть сделаны для выполнения подробных вопросов (сколько мы продали в первом квартале, с разбивкой по продукту, продавцу, месяцу, и регион?), вы обычно начинаете облагать налогом их ограничения (любой запрос, который должен посетить все строки, будет медленным).

Для этих типов запросов большинство предприятий имеют хранилище данных, которое структурирует данные в многомерные «кубы». (См. Cognos, Hyperion, другие). Это может быть подходящим для того, что вы пытаетесь сделать.

У меня нет никакого опыта работы с MapReduce, но я прочитал раздел википедии по Использование , и поэтому, если то, что вы пытаетесь сделать, попадает в эти категории, я продолжу с ним.

0 голосов
/ 02 февраля 2010

Если вы находитесь в быстро развивающейся организации, вам следует использовать Teradata. У нас действительно хороший опыт работы с Teradata. Это дает вам масштабируемость, которую не может дать ни один другой поставщик. Когда вы привыкнете к SQL и стилю работы, вы по-настоящему оцените дизайн и архитектуру Teradata.

...