Загрузка больших данных в экземплярах EC2 - PullRequest
0 голосов
/ 23 сентября 2019

Я хочу выполнить моделирование данных с помощью Deep-Learning, поэтому я попытался загрузить данные в экземпляр EC2 (p2.8xlarge) из данных, хранящихся в s3, т.е. в формате паркета размер папки для паркета в s3 составляет 9 ГБ, т.е.Я использую Pyarrow для загрузки данных паркета из s3, но загрузка этих данных занимает около 3 часов, и я хотел бы уменьшить их между 10-15 минут до часа.Любая помощь будет принята с благодарностью. Спасибо

1 Ответ

0 голосов
/ 23 сентября 2019

Первый вывод из этого заключается в том, что регионы и связность имеют значение.Очевидно, что если вы перемещаете данные в AWS через экземпляр EC2, например вне тома EBS, вам лучше, если ваш экземпляр EC2 и регион S3 соответствуют.Что еще более удивительно, даже при перемещении данных в пределах одного региона Орегон (более новый регион) появляется быстрее, чем Вирджиния

Во-вторых, типы экземпляров имеют значение.Если вы используете серверы EC2, некоторые типы экземпляров имеют более высокую пропускную способность сети, чем другие.Это можно увидеть, если вы отсортируете по «Производительность сети» в превосходном списке ec2instances.info.

, поэтому вам нужно увеличить эту скорость.

  • Включите расширенную сеть в вашем текущем экземпляре и проверьте производительность
  • Используется экземпляр, оптимизированный для сети, который обеспечит высокую пропускную способность сети

Enhanced Networking в Linux:

Сначала попробуйте включить Enhanced Networking в вашем текущем экземпляре и проверьте производительность, если она улучшится, а затем, если нет, перейдите к следующему шагу.

Усовершенствованная сеть использует виртуализацию с одним корневым вводом / выводом (SR-IOV) для обеспечения высокопроизводительных сетевых возможностей для поддерживаемых типов экземпляров.SR-IOV - это метод виртуализации устройств, который обеспечивает более высокую производительность ввода-вывода и более низкую загрузку ЦП по сравнению с традиционными виртуализированными сетевыми интерфейсами

Сначала вы можете проверить поддержку, если ваш текущий экземпляр поддерживает это.Вы можете проверить статью для поддержки

включить расширенную сеть

EC2 до S3 -

Traffic toА сервис Amazon Simple Storage Service (S3) теперь может использовать пропускную способность до 25 Гбит / с.Ранее трафик этого типа имел доступ к пропускной способности 5 Гбит / с.Это будет полезно для приложений, которые обращаются к большим объемам данных в S3 или используют S3 для резервного копирования и восстановления.

The-Flogates-Open-увеличен-сеть-пропускная способность для экземпляров ec2

Оптимизация сетевых интенсивных рабочих нагрузок на экземплярах Amazon EC2 A1

На экземпляры A1 подается питание нашими внутренними разработчиками процессоров AWS Graviton на базе Arm, которые на 45% дешевле, чем другие типы экземпляров с таким же количеством виртуальных ЦП и DRAM.Эти экземпляры основаны на системе AWS Nitro и предлагают расширенную сеть до 10 Гбит / с с эластичными сетевыми адаптерами (ENA).

оптимизация, интенсивная работа в сети, рабочие нагрузки наamazon-ec2 или i3en-of-io-optimized-ec2-instance

Далее вы можете изучить эти две статьи, которые помогут вам ускорить переход с s3 на ec2.

/ производительность сети в amazon-ec2-and-to-amazon-s3

10 вещей, которые не могут знатьиспользуя-s3

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...