Анализ временных рядов с искрой - PullRequest
0 голосов
/ 10 мая 2018

Я работаю над проектом, который генерирует 40-50 Гб данных временных рядов каждый день.

Phase   Time (UTC) Sensor   Voltage (Vrms)  Current (Arms)  Real Power (kW) Reactive Power (kVAr)   

A   30/11/2017 0:00 1   242.049 94.7869 22.6874 3.4158  
B   30/11/2017 0:00 2   242.648 58.2347 13.9256 2.39754 
C   30/11/2017 0:00 3   243.448 74.8243 17.0897 6.30549 
A   30/11/2017 0:10 1   241.358 93.3049 22.2974 3.15765 

Мы получаем эти данные в виде плоских файлов и загружаем их в озеро данных с помощью фабрики данных Azure.

на протяжении всего процесса данные должны обрабатываться с помощью spark и визуализироваться с помощью Power BI или любого другого инструмента визуализации.

у нас может быть произвольный доступ + частые параллельные запросы, которые, как я слышал, не подходятдля искры.

Я так растерялся, выбирая лучшие инструменты для создания этого конвейера.У меня может быть два варианта:

вариант 1:

  1. Загрузка данных из файла CSV
  2. Очистка данных
  3. Записать в файл qarquet)
  4. Загрузить данные из файла паркета

  5. Анализировать

  6. перейти на питание BI

    Опция 2:

    • Загрузка данных из файла CSV

    • Очистка данных

    • Запись в любую базу данных nosql или временных рядов nosql

    • Загрузка данных из базы данных, анализ их с помощью sparksql или ?????

    • передать его на питание BI

или какие-либо другие варианты следует рассмотреть?

...