Azure решение для сохранения потока в BLOB-файлы в виде паркета - PullRequest
2 голосов
/ 05 февраля 2020

Я читал о нескольких различных azure сервисах - захват концентратора событий, Azure фабрика данных, концентратор событий и многое другое. Я пытаюсь найти несколько способов использования azure сервисов для выполнения :

  1. Записать данные в какую-то «конечную точку» или место из моего приложения (предпочтительно, сервис azure)

  2. Данные будут группироваться и сохраняться в файлах в BLOB

  3. В конечном итоге формат должен быть паркетным в файлах BLOB

Мои вопросы:

  1. Я прочитал, что при захвате событий концентратор сохраняет только файлы в формате AVRO. Так что я мог бы также рассмотреть второй конвейер копирования от оригинального BLOB AVRO до BLOB назначения паркета. Есть ли в * 1036 служба, которая может прослушивать мой BLOB, преобразовывать все файлы в паркет и сохранять снова (я не уверен в документации, если фабрика данных может это сделать)?

  2. Какие другие альтернативы вы бы рассмотрели (кроме Кафки, о котором я знаю), чтобы сохранить поток данных в пакетах паркета в BLOB?

Спасибо!

1 Ответ

0 голосов
/ 05 февраля 2020

За наименьшее количество усилий вы можете использовать в качестве конечной точки комбинацию концентратора событий, а затем подключить к ней Azure Stream Analytics. Он может написать паркет для блобов: https://docs.microsoft.com/en-us/azure/stream-analytics/stream-analytics-define-outputs#blob -storage-and- azure -data-lake-gen2

...