Redshift копия из json «Оператор не завершил выполнение» с пустыми ошибками stl_load_errors - PullRequest
0 голосов
/ 03 октября 2019

У меня есть файлы json.gz в S3. Размер файлов от нескольких килограммов до 300 МБ (сжатых).

Попытка загрузить все из них в Redshift с помощью следующей команды:

copy my_table from 's3://my-bucket/'
access_key_id 'qqq'
secret_access_key 'qqq'
dateformat 'auto'
timeformat 'epochsecs'
COMPUPDATE ON
gzip json 's3://another-bucket/json_paths.json'

my_table имеет полякоторые были указаны с помощью json_paths.json . Я несколько раз пытался это сделать, и только один раз загружается полностью, без каких-либо изменений в корзине s3 и структуре таблицы. Теперь он всегда останавливается на 300M записей вместо 800M их общего количества и показывает Оператор не смог завершить выполнение .

SELECT * FROM stl_load_errors

Показывает мне 0 записей, поэтому у меня нет информации о том, что произошло.

Кластер состоял из 4-8 узлов и был успешным на 6 узлах, но только один раз из нескольких попыток, идаже 8 восстанавливаются позже (магия!). Общий размер несжатых данных составляет около 130 ГБ, поэтому кластер гораздо больше, чем он.

У меня нет сомнений, что данные в порядке! Также пытался загрузить по префиксу (файлы имеют префикс, что-то вроде «data_2016_01_01.gz», «data_2017_12_17.gz»), чтобы я мог загружать, например, год за годом, и это работает правильно!

Вопрос в следующем:

где увидеть причину сбоя, если stl_load_errors пусто

...