Question

У меня есть корзина S3 со многими объектами, и я хочу скопировать их в другую корзину S3. Это не прямая синхронизация c, потому что есть пара требований:

Я хочу упростить ключ объекта, чтобы /images/all/abcdef.png копировался в /images/abcdef.png (исключая /all )
Не все файлы будут скопированы. Все ключи объектов перечислены в файле (по одному ключу в строке), так как многие старые не должны копироваться.

Выполнение этого с помощью инструмента командной строки s3 является чрезвычайно медленным. Я использовал следующий скрипт:

#!/bin/bash
while read key; do
  newkey=$(echo $key | sed 's/all\///g')
  aws s3 cp s3://oldbucket/images/$key s3://newbucket/images/$newkey
done < $keys

Это занимает секунду или две на файл, поэтому копирование всех (более 1 миллиона объектов) займет много дней. Обратите внимание, что я запускаю это с внешнего сервера, а не с машины AWS, хотя и физически близко (Линод Нью-Джерси к AWS США Восток 1). Объекты - это изображения размером от 30 КБ до 3 МБ.

Я пытался разбить файл ключей и работать параллельно, но похоже, что скорость не меняется, не знаю почему. Я также не могу добавить опцию быстрой передачи S3, так как в исходной корзине есть "." в нем (ограничение S3). Я хотел бы знать, есть ли более быстрый способ сделать это.

John Rotenstein · Answer 1 · 24 января 2020

Команда aws s3 cp использует некоторый специальный код в CLI AWS, чтобы выяснить, куда копируются объекты. Затем он выполняет обычные вызовы Amazon S3 API для копирования фактических данных:

Если источником и местом назначения являются сегменты S3, он использует CopyObject(), чтобы указать S3 напрямую копировать объект между сегментами (без загрузка / выгрузка)
Если источником является локальный компьютер, а местом назначения является сегмент S3, он использует PutObject()
Если источником является сегмент S3, а местом назначения является локальный компьютер , он использует GetObject()

Команда aws s3 sync выполняет аналогичные действия (но сначала сравнивает исходные / целевые файлы).

A ближе к Амазонке Конечные точки S3 (например, выполнение команд из экземпляра Amazon EC2 в том же регионе) позволят минимизировать нагрузку на сеть, возможно, сделав копии объектов более эффективными.

Запуск команд в параллельный определенно сделает вещи go быстрее, поскольку S3 может копировать файлы параллельно. Я часто открываю два терминала windows для экземпляра EC2 и выдаю команды в каждом окне. Они работают независимо друг от друга, так что это должно значительно ускорить процесс. (Это не обязательно так, если объекты загружаются или загружаются, поскольку существуют ограничения пропускной способности сети. Но, поскольку ваш скрипт просто выдает команды Copy, это не имеет значения.)

Альтернатива: используйте aws s3 mv

Если вы хотите переместить объекты (а не просто скопировать их), вы можете использовать aws s3 mv. На самом деле он выполняет CopyObject(), а затем DeleteObject() в исходном файле.

Самый быстрый способ скопировать файлы S3 без точной синхронизации

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Самый быстрый способ скопировать файлы S3 без точной синхронизации

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов