Question

Я новичок в Azure Data Lake и больших данных в целом, и я прошу прощения, если мой вопрос кажется глупым.

Я изучал ADL и ADLA, чтобы разработать хранилище данных холодного тракта. У меня есть запрос Azure Stream Analytics, который выводит в Power Bi для визуализации в реальном времени, и другой запрос, который хранит данные в формате .CSV в озере данных.

Я создал проект VS, в котором я создал базу данных, схему и таблицы, соответствующие файлам csv, и один скрипт извлекает данные из файла CSV и копирует их в таблицу, чтобы придать моим данным некоторую структуру.

Мой вопрос заключается в том, что если данные продолжают храниться в файлах csv, где структура папок определяет, когда поступили данные, как мне обновить свои таблицы новыми данными. Должен ли я бросить стол и начать все сначала, я не верю, что это жизнеспособное решение?

У меня есть сценарии, которые я должен запустить для создания БД, схемы, извлечения данных и заполнения таблиц. Конечно, я не могу запустить все сценарии, когда поступают новые данные.

Примечание. Я хочу отметить, что базы данных и таблицы находятся в базах данных ADLA U-SQL.

Miguel Domingues · Answer 1 · 27 августа 2018

Это очень субъективный вопрос. Прежде чем продолжить, я рекомендую вам прочитать много о «Больших данных» и «Озере данных». В середине этой лекции вы можете найти ответы. Например, посмотрите древовидную организацию озера данных. Мои начальные ссылки были:

http://blogs.adatis.co.uk/ustoldfield/post/Shaping-The-Lake-Data-Lake-Framework

https://www.sqlchick.com/entries/2016/7/31/data-lake-use-cases-and-planning

https://www.sqlchick.com/entries/2017/12/30/zones-in-a-data-lake

https://static1.squarespace.com/static/52d1b75de4b0ed895b7e7de9/t/59e3bd8464b05fe9e6bbe969/1508097416856/DesigningAModernDWandDataLake_MelissaCoates.pdf

https://www.gartner.com/binaries/content/assets/events/keywords/catalyst/catus8/2017_planning_guide_for_data_analytics.pdf