Question

Я работаю над проектом, который генерирует 40-50 Гб данных временных рядов каждый день.

Phase   Time (UTC) Sensor   Voltage (Vrms)  Current (Arms)  Real Power (kW) Reactive Power (kVAr)   

A   30/11/2017 0:00 1   242.049 94.7869 22.6874 3.4158  
B   30/11/2017 0:00 2   242.648 58.2347 13.9256 2.39754 
C   30/11/2017 0:00 3   243.448 74.8243 17.0897 6.30549 
A   30/11/2017 0:10 1   241.358 93.3049 22.2974 3.15765

Мы получаем эти данные в виде плоских файлов и загружаем их в озеро данных с помощью фабрики данных Azure.

на протяжении всего процесса данные должны обрабатываться с помощью spark и визуализироваться с помощью Power BI или любого другого инструмента визуализации.

у нас может быть произвольный доступ + частые параллельные запросы, которые, как я слышал, не подходятдля искры.

Я так растерялся, выбирая лучшие инструменты для создания этого конвейера.У меня может быть два варианта:

вариант 1:

Загрузка данных из файла CSV
Очистка данных
Записать в файл qarquet)
Загрузить данные из файла паркета
Анализировать
перейти на питание BI

Опция 2:
- Загрузка данных из файла CSV
- Очистка данных
- Запись в любую базу данных nosql или временных рядов nosql
- Загрузка данных из базы данных, анализ их с помощью sparksql или ?????
- передать его на питание BI

или какие-либо другие варианты следует рассмотреть?

Анализ временных рядов с искрой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Анализ временных рядов с искрой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы