Создание Data Lake с нуля - PullRequest
       40

Создание Data Lake с нуля

0 голосов
/ 27 февраля 2019

Я пытаюсь построить «озеро данных» с нуля.Я понимаю, как работает озеро данных и какова его цель;это по всему интернету.Но когда возникает вопрос, как построить его с нуля, источника нет.Я хочу понять, если:

Хранилище данных + Hadoop = Озеро данных

Я знаю, как запускать Hadoop и вводить данные в Hadoop.Я хочу построить пример на озере данных для демонстрации моего менеджера.Любая помощь приветствуется.

1 Ответ

0 голосов
/ 27 февраля 2019

Вы должны были бы иметь структурированные и неструктурированные данные, чтобы превратить кластер Hadoop в озеро данных.

Итак, вам понадобится какой-нибудь конвейер ETL, берущий неструктурированные данные и преобразующий их в структурированные данные,Обзоры продуктов или что-то подобное предоставят ваши неструктурированные данные.Преобразование этого в нечто полезное для Hive (в качестве примера) даст вам ваши структурированные данные.

Я бы посмотрел на https://opendata.stackexchange.com/ для получения ваших данных и в Google Hadoop ETL для идей о том, как очиститьданные.Вам решать, как вы хотите написать свой конвейер (Spark или MapReduce).

...