Вопрос очень общий, но один из распространенных и простых способов построения озера данных - это использовать Presto (https://prestodb.io).
Presto может читать несколько форматов, но также подключаться к различным источникам данных, таким как базы данных mysqlи другие, представляющие данные в виде таблицы.
Клиенты могут использовать SQL также через jdbc / odbc и, следовательно, получать доступ к озеру данных даже из таких инструментов, как excel, или других аналитических инструментов (микростратегия, таблицы и т. д.).