Вы должны были бы иметь структурированные и неструктурированные данные, чтобы превратить кластер Hadoop в озеро данных.
Итак, вам понадобится какой-нибудь конвейер ETL, берущий неструктурированные данные и преобразующий их в структурированные данные,Обзоры продуктов или что-то подобное предоставят ваши неструктурированные данные.Преобразование этого в нечто полезное для Hive (в качестве примера) даст вам ваши структурированные данные.
Я бы посмотрел на https://opendata.stackexchange.com/ для получения ваших данных и в Google Hadoop ETL для идей о том, как очиститьданные.Вам решать, как вы хотите написать свой конвейер (Spark или MapReduce).