Можно ли использовать Amazon Web Services (AWS) для огромных баз данных? - PullRequest
0 голосов
/ 12 июля 2011

У меня есть проект, который требует хранения нескольких десятков TBs данных.Сначала будет сохранено несколько TBs данных.Затем ожидается, что данные будут расти со скоростью 5 GB в день.

Основываясь на бизнес-логике, я могу разделить это на 10,000s файлов / таблиц (каждый файл / таблица будет состоять из данных размером ~ 1 [GB]).

( Примечание: в любой данный момент времени только 10-20 [GB] (скажем, 20 таблиц) считаются hot data, к которым я буду активно запрашивать.)

Можно ли Amazon Web Services (AWS) использовать для хранения и запроса такого огромного количества данных?

Если вместо этого я бы хотел хранить эти данные внутри компании, что это такое?лучший способ приблизиться к этому (например, ясно, что я не могу хранить все данные на одной машине и т. д.)?

Ответы [ 3 ]

1 голос
/ 13 июля 2011

Отсутствие информации о формате данных, схеме и т. Д., Вот как я бы с этим справился:

  • сохранить данные в S3 в каком-то удобном формате Map / Reduce
  • использовать hadoop(или Elastic Map Reduce) для запроса всего набора данных при необходимости.Типичным примером является использование M / R для заблаговременного получения всех необходимых ответов и сохранения гораздо меньших результатов в какой-либо другой базе данных.
  • Если действительно необходимо иметь 20 ГБ «горячих данных» в SQLВозможно, у меня есть несколько ETL для загрузки в Amazon RDS (MySQL), но я бы постарался избежать этого, если бы мог использовать M / R для ответа на все мои вопросы и получить небольшой и оптимизированный набор данных.
0 голосов
/ 06 января 2013

Нет, я не думаю. Не для хью баз данных.

В этих областях вы покупаете специальное оборудование, например, Oracle ExaData (у моего последнего хранилища данных было 20 000 ГБ, и это было мало с их точки зрения).

Проблема:

  • Резервные копии. Да, Amazon иногда теряет данные - случилось.
  • Загрузка огромного количества данных.
  • Ресурсы. Скорее всего, вам нужно гораздо больше, чем даже их лучшие виртуальные машины. Настройка - это боль, если вы не контролируете оборудование.
  • Стоимость. В самом деле. Все, что до 24/7, дорого в Амазонке.

Если это может быть включена карта / recude или что-то в этом роде - да. Установка ядра Oracle RAC в Buta 96 (что мало для Exadata) - это не то, что я хотел бы попробовать на Amazon.

И тогда у них нет специального оборудования. Как и RAID-контроллеры Oracle ExaData, которые уже отфильтровывают ненужные строки (используя их индекс хранения).

Итак, я бы сказал: нет.

0 голосов
/ 12 июля 2011

Хранение не будет проблемой. Облако Amazon - это просто компьютеры (виртуальные) в другом месте. Поэтому тот факт, что он находится в облаке Amazon, на самом деле не меняет уравнения производительности, если только вы не соберете огромные наборы данных в приложение, находящееся за пределами этого облака.

Перенос 5 ГБ данных в день, вероятно, является более сложной задачей, но это кажется выполнимым.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...