Тестирование производительности Афины - PullRequest
0 голосов
/ 01 февраля 2019

Выполнение запросов по данным CSV.(Чтобы проверить производительность Афины) Запрос: выберите * из предела csvdata 10;Здесь я проверяю, сколько данных сканируется и сколько времени заняло.Когда я снова и снова выполняю один и тот же запрос, разница во времени и сканированные данные становятся настолько нестабильными.Не могу понять, какое лучшее время Афина тратит на сканирование данных.Это задержка сети?или что-то не так в моем подходе?С нетерпением ждем тестирования объединений, группового распределения, разделов и группирования позже.есть ли какой-то случай, на который я могу сослаться?

1 Ответ

0 голосов
/ 04 февраля 2019

Athena - это многопользовательская распределенная система, и вы увидите много различий во времени запросов в зависимости от времени суток, учетной записи, в которой вы выполняете запросы, региона и т. Д.Некоторые запросы могут быть поставлены в очередь, и размер результирующего набора также влияет на общую продолжительность запроса.

Я предлагаю вам сравнить одни и те же запросы в разное время дня и всегда выполнятьпротив тех же данных.Измерьте продолжительность на клиенте, а также запишите время отправки, время завершения и время выполнения механизма из вызова API GetQueryExecution.Когда вы запускаете запрос в консоли Athena, он сообщает о времени выполнения механизма, но это не включает в себя очереди и время, необходимое для чтения результатов в вашем клиенте (GetQueryResults может быть очень медленным для больших наборов результатов).

Также запишите объем отсканированных данных, это важное число, которое нужно учитывать при тестировании разбиения и сегментирования, поскольку оно может сказать вам, использует ли запрос их или нет.

...