У меня много сомнений, связанных с Spark + Delta.
1) Блок данных предлагает 3 слоя (бронза, серебро, золото), но какой слой рекомендуется использовать для машинного обучения и почему? Я предполагаю, что они предлагают, чтобы данные были чистыми и готовыми в золотом слое.
2) Если мы абстрагируем концепции этих трех уровней, можем ли мы считать бронзовый слой как озеро данных, серебряный слой как базы данных и золотой слой как хранилище данных? Я имею в виду с точки зрения функциональности.
3) Дельта-архитектура - это коммерческий термин, или это эволюция архитектуры Kappa, или это новая трендовая архитектура, как архитектура Lambda и Kappa? Чем отличается архитектура Delta + Lambda от архитектуры Kappa?
4) Во многих случаях Delta + Spark масштабируется намного больше, чем большинство баз данных, как правило, гораздо дешевле, и если мы настроим все правильно, мы сможем получить почти в 2 раза более быстрые результаты запросов. Я знаю, что довольно сложно сравнить фактические хранилища данных с хранилищем Feature / Agg Data Store, но я хотел бы знать, как я могу сделать это сравнение?
5) Раньше я использовал Kafka, Kinesis или Event Hub для потокового процесса, и мой вопрос в том, какие проблемы могут возникнуть, если мы заменим эти инструменты таблицей Delta Lake (я уже знаю, что все зависит от многих вещей , но я хотел бы иметь общее видение этого).