Question

Я глубоко погрузился в настройку запросов Redshift. Я новичок в этой технологии. У меня есть несколько базовых вопросов и несколько свободно сформированных толкований, которые я надеюсь получить от моего подтверждения или опровержения.

Вот так ...

Распределение против широковещательных операций:
До сих пор я не нашел ничего в руководстве, которое убедительно говорит мне разницу. Что я заметил в Плане, так это то, что, если я выберу стиль распространения ALL, я все равно вижу, как происходят операции BCAST. Может кто-нибудь объяснить, пожалуйста, разницу между этими операциями?
Узлы против ломтиков:
Я обращаю внимание на руководство, в контексте операций распределения, в одном месте это указывает, что данные распределены по узлам, а в другом - это указывает, что данные распределены по слайсам. Я анализирую план в среде разработчика с одним узлом и двумя срезами. Вот моя слабо сформированная интерпретация: Оптимизатор не зависит от узла; это заботится о ломтиках. Данные могут быть распределены на узел, инцидентный срезу, являющемуся резидентом этого целевого узла. Кто-то может подтвердить или опровергнуть это?
Соединения высокой мощности Я пытаюсь настроить две большие таблицы транзакций с несколькими операциями соединения с высокой мощностью (без первичного / внешнего ключа). Прошел несколько разнообразных итераций с участием стилей dist и клавиш сортировки в дополнение к чтению нескольких блогов по настройке.
Слабо сформулированная интерпретация: Redshift выделяется как схемы «звезда / снежинка», в которых объединения обычно имеют низкую мощность (Dims и таблицы фактов), но борются с транзакционными таблицами. Кто-то может подтвердить или опровергнуть это?

Я ценю ваши идеи.

Спасибо!

Joe Harris · Answer 1 · 02 мая 2018

Эта тема, вероятно, слишком широка, чтобы ее можно было рассмотреть в одном вопросе.

Широковещательная рассылка для dist все отличается от других широковещательных рассылок - данные уже есть на каждом узле. Распределение означает, что для завершения объединения Redshift re распределяет данные по всем слайсам, используя новый ключ dist.
Узлы подразделяются на кусочки. Большинство операторов запросов работают на уровне слайса.
Redshift может выполнять огромные объединения на резидентных данных диска быстрее, чем любая другая система, которую я использовал (YMMV). Для максимальной скорости огромные объединения должны быть сделаны для таблиц с одинаковыми ключами dist и sort - используя столбцы dist и sort. См. Примечание "Объединение" здесь.

Из предыдущего ответа эти ссылки должны содержать необходимые объяснения:

Рабочий процесс планирования и выполнения запросов: https://docs.aws.amazon.com/redshift/latest/dg/c-query-planning.html
Просмотр шагов плана запроса: https://docs.aws.amazon.com/redshift/latest/dg/reviewing-query-plan-steps.html
Отображение плана запроса в сводку запроса: https://docs.aws.amazon.com/redshift/latest/dg/query-plan-summary-map.html
Диагностические запросы для настройки запросов: https://docs.aws.amazon.com/redshift/latest/dg/diagnostic-queries-for-query-tuning.html

Новое в Redshift: основные вопросы настройки запросов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Новое в Redshift: основные вопросы настройки запросов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы