Question

У меня интенсивный вычислительный проект с высокой степенью параллелизации: в основном, у меня есть функция, которую мне нужно запускать для каждого наблюдения в большой таблице (Postgresql).Сама функция является хранимой процедурой Python.

Amazon EC2 отлично подходит для проекта.

Мой вопрос таков: должен ли я создать собственное изображение (AMI), которое уже содержит базу данных?Казалось бы, это дает преимущество минимизации передачи данных и упрощения распараллеливания: каждое изображение может получить определенный блок индексов для вычисления, например, изображение 1 получает 1: 100, изображение 2 101: 200 и т. Д. Разделение данных иэкземпляры (которые предлагают большинство практических руководств) не имеют смысла для моего приложения, но я очень новичок в этом, поэтому я не уверен, что моя интуиция верна.

thraxil · Answer 1 · 14 августа 2010

Если у вас уже есть функция, реализованная в Python, простейший путь может выглядеть на PiCloud , который просто дает вам действительно простой интерфейс для запуска функции Python на EC2, с обработкой в значительной степенивсе остальное для тебя.Будет ли это экономически целесообразно, будет зависеть от того, сколько данных должно быть отправлено на вызов функции, и сколько времени потребуется для выполнения вычислений.

Andrew Kitchen · Answer 2 · 14 августа 2010

вы определенно захотите сохранить данные и экземпляр сервера отдельно, чтобы изменения в ваших данных сохранялись, когда вы закончите работу с экземпляром. Лучше всего начать с базового образа, на котором вы хотите использовать ОС и платформу базы данных, настроить его под свои нужды, а затем подключить один или несколько томов EBS, содержащих ваши данные. Вы также можете захотеть создать свой собственный экземпляр сервера, как только закончите настройку, если только то, что вы делаете, не достаточно просто.

некоторые полезные ссылки:

http://docs.amazonwebservices.com/AmazonEC2/gsg/2006-10-01/creating-an-image.html http://developer.amazonwebservices.com/connect/entry.jspa?categoryID=100&externalID=1663

(вы сказали, что postgres, но этот учебник по mysql охватывает те же базовые понятия, которые вы хотите иметь в виду)

Как мне настроить Amazon EC2 для выполнения распараллеливаемых вычислений с интенсивным использованием данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как мне настроить Amazon EC2 для выполнения распараллеливаемых вычислений с интенсивным использованием данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов