Включение шифрования в кластере Redshift с существующими данными - PullRequest
1 голос
/ 10 апреля 2019

Мне было поручено включить шифрование в кластере Redshift, в котором содержится значительное количество существующих данных.Основываясь на этой ссылке Я знаю, что при включении он создаст новый кластер и скопирует существующие данные, сделав доступ к нему в течение этого времени только для чтения.У нас есть несколько заданий ETL, которые выполняются на кластере Redshift, и я пытаюсь определить, сколько приблизительно времени я могу ожидать на миграцию.Доступны ли какие-либо оценки на основе размера данных / типа узла / конфигурации кластера?

1 Ответ

2 голосов
/ 16 апреля 2019

Существует ли какая-либо оценка, доступная на основе размера данных / типа узла / конфигурации кластера?

В основном, нет.Время, которое потребуется, будет зависеть от ряда факторов, некоторые из которых находятся вне вашего контроля, поэтому очень трудно предсказать.

Сначала вы должны полностью протестировать это, чтобы понять последствия и продолжительность, с которой это может произойти.например,

  • Создайте новый идентичный кластер, восстановив снимок вашего исходного кластера
  • Выполните шаги, чтобы зашифровать кластер и записать затраченное время
  • В идеале, протестируйте ваши существующие задания ETL с зашифрованным кластером
  • Отбросьте тестовый кластер

Основываясь на моем опыте с изменением размера кластеров (аналогичное, но не идентичное упражнение), я бы позволил + /- 10-15% запаса на время тестирования из-за изменчивости локальных ресурсов AWS, сетевого трафика и т. Д.

Если это возможно, я бы посоветовал прекратить все подключения к кластеру, чтобы ускорить процесс.Мы обнаружили, что процесс, который часто опрашивал наш кластер, приводил к тому, что процесс изменения размера занимал больше времени.

Для эталонной точки кластер из 20 узлов с прибл.Для изменения размера 25 ТБ данных потребовалось около 20 часов.

...