Использование Athena для запроса файлов паркета в s3 нечастый доступ: сколько это стоит? - PullRequest
0 голосов
/ 08 апреля 2020

Когда я сканирую файлы паркета, расположенные в s3, используя Athena, то Athena выставляет мне счет за то, сколько данных она сканирует. Поскольку паркет представляет собой столбчатый формат, запросы, затрагивающие всего несколько столбцов широких таблиц, в конечном итоге сканируют только небольшую часть файлов паркета, что приводит к снижению затрат на стороне запросов. Если файлы паркета хранятся на стандартном уровне доступа S3, то за доступ к данным с s3 не взимается дополнительная плата.

Что если данные хранятся на уровне нечастого доступа (IA) S3? Если Athena сканирует небольшие части файла паркета, хранящегося в S3, могу ли я

  1. оплатить сбор за поиск данных нечастого доступа только за количество байтов, которые сканирует Athena?, Или
  2. Pay плата за получение данных о нечастом доступе для размера всего файла паркета, потому что я получаю плату за доступ ко всему файлу, если я вообще к нему прикасаюсь?

1 Ответ

1 голос
/ 08 апреля 2020

Из расчета Amazon S3 Simple Storage Service может показаться, что за нечастый доступ взимаются соответствующие сборы:

  • GET, SELECT и все другие запросы (за 1000 запросов): 0,001 $ (по сравнению с 0,0004 $)
  • Поиск данных (за ГБ): 0,01 (по сравнению с 0,00 $)

My прочтение заключается в том, что получение данных будет соответствовать количеству данных, «извлеченных» из S3, что, вероятно, будет ранжированных GET из Афины. Тем не менее, у меня нет конкретной c информации, которая говорит о том, что так будет взиматься плата.

Афина, вероятно, немного «перепрыгнет» из-за столбчатого хранилища, что также приведет к оплате за GET-запросы.

Для обычного доступа к файлам с нечастым доступом IA дешевле, если к объекту обращаются менее одного раза в месяц. Использование паркета, вероятно, улучшило бы это уравнение. Единственный способ убедиться в этом - это установить тест для группы и региона, которые вы обычно не используете (или другой учетной записи), сделать некоторый доступ и затем посмотреть, за что взимается плата.

...