Я работаю над проектом, который генерирует 40-50 Гб данных временных рядов каждый день.
Phase Time (UTC) Sensor Voltage (Vrms) Current (Arms) Real Power (kW) Reactive Power (kVAr)
A 30/11/2017 0:00 1 242.049 94.7869 22.6874 3.4158
B 30/11/2017 0:00 2 242.648 58.2347 13.9256 2.39754
C 30/11/2017 0:00 3 243.448 74.8243 17.0897 6.30549
A 30/11/2017 0:10 1 241.358 93.3049 22.2974 3.15765
Мы получаем эти данные в виде плоских файлов и загружаем их в озеро данных с помощью фабрики данных Azure.
на протяжении всего процесса данные должны обрабатываться с помощью spark и визуализироваться с помощью Power BI или любого другого инструмента визуализации.
у нас может быть произвольный доступ + частые параллельные запросы, которые, как я слышал, не подходятдля искры.
Я так растерялся, выбирая лучшие инструменты для создания этого конвейера.У меня может быть два варианта:
вариант 1:
- Загрузка данных из файла CSV
- Очистка данных
- Записать в файл qarquet)
Загрузить данные из файла паркета
Анализировать
перейти на питание BI
Опция 2:
Загрузка данных из файла CSV
Очистка данных
Запись в любую базу данных nosql или временных рядов nosql
Загрузка данных из базы данных, анализ их с помощью sparksql или ?????
передать его на питание BI
или какие-либо другие варианты следует рассмотреть?