Использовать Hadoop в качестве движка хранения MySQL? - PullRequest
3 голосов
/ 29 марта 2012

Помимо использования Hive, это хорошая идея для выполнения специального запроса для больших данных журнала в HDFS для программистов SQL?

Существует ли аналогичная реализация с открытым исходным кодом?

Ответы [ 2 ]

1 голос
/ 19 сентября 2014

Я ищу вопрос в 2014 году, и нашел Infinidb и блог об этом. Это объединяет hadoop и mysql. Это обеспечивает доступ по протоколу mysql к данным, хранящимся в hadoop.

Я мало что об этом читаю, хотя мне это сомнительно в совместимости (с существующим приложением для mysql) и производительности (сравните с хорошо настроенным индексом и разделением данных).

Но это может быть самое простое решение для обеспечения высокой доступности с действительно большим набором данных, который не помещается на нескольких дисках. (используя встроенную репликацию HDFS, SAN или RAID не понадобятся)

Кстати, сайт Infinidb в настоящее время подвержен ошибке Heartbleed. Интересно, безопасен ли их продукт, пока он исправит слуховой аппарат более 5 месяцев.

0 голосов
/ 29 марта 2012

Технически это не должно быть настолько сложным для реализации. В связи с этим возникает некоторая концептуальная проблема, заключающаяся в том, что поведение движков NoSQL по производительности принципиально отличается от того, что движок MySQL ожидает от хранилищ. В частности - они имеют хороший произвольный доступ и не настолько эффективны при полном или полном сканировании. Вопрос в том, что все эти затраты можно будет перевести оптимизатору. Это применимо к любому движку СУБД. На самом деле многие из них имеют концепцию сменных механизмов хранения и имеют разный уровень гибкости / документации.
Я думаю, чтобы такая эффективная интеграция была эффективной, мы должны иметь возможность передавать предикаты в движки NoSQL для полного сканирования. Я не уверен на 100%, что MySQL поддерживает его на уровне интерфейса механизма хранения.
Еще одна серьезная проблема, с которой я сталкиваюсь при таком подходе, - тот факт, что MySQL не имеет параллельного запроса, и это не может быть слишком хорошим для обработки больших данных.

...