Я парень по математике / статистике, заинтересованный в том, чтобы узнать больше об инженерных аспектах «анализа данных» (возможно, это слишком широкий термин, но это определенно случай «я не знаю, что я не знаю») знаю ", так что я не уверен, как быть более конкретным).
Я хорошо справляюсь с манипулированием и анализом данных, когда они уже где-то сохранены, и я могу получить к ним доступ, и я хорошо пишу сценарии и запросы SQL (и имею общие знания о таких вещах, как нормализация). Чего я не знаю, так это всего процесса разработки сбора и хранения данных. Например, термины, о которых я слышал, я лишь смутно понимаю, что означают:
- OLAP, OLTP
- Хранилище данных
- ETL
- ???
Какая хорошая книга (или любой другой ресурс) для изучения подобных вещей? Что я должен знать о дизайне базы данных (нормализация кажется мне «очевидной», что-то, что я бы сделал еще до того, как узнал этот термин - есть что-нибудь еще?)?
Другими словами, для работ, подпадающих под общий термин «инженер-аналитик», какие вещи я должен знать и как можно о них узнать?