Hadoop и RDBMS - PullRequest
       11

Hadoop и RDBMS

1 голос
/ 01 декабря 2011

Hadoop в основном используется для обработки неструктурированных или полуструктурированных данных. Я хочу использовать Hadoop для обработки большого количества структурированных данных.

Хотя hadoop способен читать из базы данных (через DBInputFormat), он не считается масштабируемым подходом, поскольку количество подключений к базе данных будет ограничено.

Кто-нибудь использовал hadoop для чтения данных из RDBMS? Каково было представление? Сколько узлов он может поддерживать?

Спасибо

1 Ответ

0 голосов
/ 02 декабря 2011

Вы можете использовать Sqoop для импорта данных из RDBMS в Hadoop.

Hadoop отлично справляется с обработкой неструктурированных данных, потому что вы выдвигаете ограничения (создавая структурированные данные) до конца. Это также позволяет творчески оценивать, какую структуру размещать, что будет определять вид информации, которую вы можете извлечь.

Никогда не говорится, что вы не можете обрабатывать структурированные данные, но полученный пробег невелик. СУБД может обрабатывать структурированные данные так же эффективно.

...