У нас есть продукт, который ежедневно собирает статистику по собранным данным. Разумеется, данные загружаются на S3 с разбивкой по дням, и определение представления, по которому мы делаем запрос, относится к последним X дням данных. Так что, в конце концов, никакая фильтрация данных не происходит, только группировка и суммирование, что означает, что я ожидаю, что полное сканирование будет выполнено для «таблицы» данных (по крайней мере, в последние X дней данных, которые фильтруются представлением ).
Чего я не знаю, так это того, что степень сжатия данных 1: 5 снижает не 80% сканирования данных, а 97,5%. Таким образом, на самом деле стоимость этих запросов при использовании сжатых данных в 40 раз ниже, чем при использовании необработанных данных в S3. Зная, что в наших запросах нет волхвов c, чтобы уменьшить доступ к данным (и в конце концов это повлияло бы и на сырую версию!), Я просто не мог понять, почему такая разница.
Кто-нибудь знает, что за волхвы c идут за Афиной, что экономия затрат становится намного больше?
редактировать: наибольшее падение при сканировании данных было в запросах, в которых был UNION, может быть, загруженный грубый подход файлов из S3 больше, чем это было логически необходимо из-за ограничений ресурсов (память и т. д. c), и при использовании сжатия потребности данных в запросе останавливаются на логической величине размера файла?