Снежинка - Помещение большого файла во внутреннюю Стадию Снежинки - PullRequest
0 голосов
/ 03 октября 2019

Я сейчас пытаюсь загрузить большой, разархивированный файл CSV во внутреннюю стадию снежинки. Файл 500 ГБ. Я запустил команду put, но похоже, что многое не происходит. Обновления статуса нет, просто висит там.

Есть идеи, что здесь происходит? Будет ли это в конечном итоге время ожидания? Будет ли это завершено? У кого-нибудь есть приблизительное время?

Я испытываю желание попытаться как-то убить его. В настоящее время я делю большой файл размером 500 ГБ примерно на 1000 файлов меньшего размера, которые я собираюсь архивировать и загружать параллельно (после прочтения дополнительных рекомендаций).

Ответы [ 2 ]

1 голос
/ 09 октября 2019

По предложению снежинки, пожалуйста, разбейте файл на несколько маленьких файлов, затем поместите ваш файл во внутреннюю стадию снежинки. (По умолчанию снежинка будет сжимать файл)

Затем попробуйте выполнить команду копирования с многокластерным хранилищемВы увидите исполнение снежинки.

Большое спасибо, Срига

1 голос
/ 04 октября 2019

Если вы не указали auto_compress=FALSE, то шаг 1 в PUT сжимает файл, что может занять некоторое время на 500 ГБ ...
Использование parallel=<n> автоматически разделит файлы на более мелкие куски и загрузитих параллельно - вам не нужно разбивать исходный файл самостоятельно. (Но вы можете, если хотите ...)

...