Я сталкиваюсь с проблемой частых Disk Full error
на Redshift Spectrum, в результате мне приходится многократно увеличивать кластер. Похоже, что кеширование будет удалено.
В идеале мне бы хотелось увеличить масштабирование, чтобы сохранить кэширование, и найти способ узнать, сколько дискового пространства потребуется в запросе.
Есть ли какой-нибудь документ, в котором говорится о кешировании Redshift Spectrum, или они используют тот же механизм для Redshift?
РЕДАКТИРОВАТЬ: По просьбе Джона Скотта, я обновляю свой вопрос
SELECT p.postcode,
SUM(p.like_count),
COUNT(l.id)
FROM post AS p
INNER JOIN likes AS l
ON l.postcode = p.postcode
GROUP BY 1;
Общее количество сжатых данных на S3 составляет около 1,8 ТБ. Афина заняла 10 минут, отсканировала 700 ГБ и сказала мне Query exhausted resources at this scale factor
РЕДАКТИРОВАТЬ 2: Я использовал кластер SSD 16 ТБ.