Запросы производительности на ADLS gen 2 - PullRequest
0 голосов
/ 13 апреля 2020

Я пытаюсь перенести нашу базу данных "старой школы" (в основном временные ряды) в Azure озеро данных.

Итак, я взял случайную таблицу (данные за 10 лет, записи за 200 м, 20 ГБ) ), скопировал данные в один CSV-файл, а также в те же данные и создал 4000 ежедневных файлов (в ежемесячных папках).

Помимо этих двух наборов файлов я создал 2 внешних таблицы ... и я получаю почти одинаковую производительность для них обоих. (?!?)

Независимо от того, что я запрашиваю, ищу ли я данные за один день (например, в одном небольшом файле) или делаю суммирование всего набора данных ... это в основном занимает 3 минуты, независимо от того, просматриваю ли я один файл или ежедневные файлы (4000). Как будто весь набор данных должен быть загружен в память, прежде чем что-либо делать?!?

Так есть ли где-нибудь настройка, которую я мог бы изменить, чтобы избежать загрузки всех данных, когда они не нужны? Это может буквально ускорить мои запросы в 1000 раз.

Насколько я понимаю, индексы для внешних таблиц невозможны. Создание материализованного представления не позволит использовать озеро. т

полное раскрытие; Я новичок в Azure Хранилище данных, я пытаюсь выяснить, подходит ли эта технология для решения нашей проблемы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...