Question

У меня есть проект, который требует хранения нескольких десятков TBs данных.Сначала будет сохранено несколько TBs данных.Затем ожидается, что данные будут расти со скоростью 5 GB в день.

Основываясь на бизнес-логике, я могу разделить это на 10,000s файлов / таблиц (каждый файл / таблица будет состоять из данных размером ~ 1 [GB]).

( Примечание: в любой данный момент времени только 10-20 [GB] (скажем, 20 таблиц) считаются hot data, к которым я буду активно запрашивать.)

Можно ли Amazon Web Services (AWS) использовать для хранения и запроса такого огромного количества данных?

Если вместо этого я бы хотел хранить эти данные внутри компании, что это такое?лучший способ приблизиться к этому (например, ясно, что я не могу хранить все данные на одной машине и т. д.)?

Gary Richardson · Answer 1 · 13 июля 2011

Отсутствие информации о формате данных, схеме и т. Д., Вот как я бы с этим справился:

сохранить данные в S3 в каком-то удобном формате Map / Reduce
использовать hadoop(или Elastic Map Reduce) для запроса всего набора данных при необходимости.Типичным примером является использование M / R для заблаговременного получения всех необходимых ответов и сохранения гораздо меньших результатов в какой-либо другой базе данных.
Если действительно необходимо иметь 20 ГБ «горячих данных» в SQLВозможно, у меня есть несколько ETL для загрузки в Amazon RDS (MySQL), но я бы постарался избежать этого, если бы мог использовать M / R для ответа на все мои вопросы и получить небольшой и оптимизированный набор данных.

TomTom · Answer 2 · 06 января 2013

Нет, я не думаю. Не для хью баз данных.

В этих областях вы покупаете специальное оборудование, например, Oracle ExaData (у моего последнего хранилища данных было 20 000 ГБ, и это было мало с их точки зрения).

Проблема:

Резервные копии. Да, Amazon иногда теряет данные - случилось.
Загрузка огромного количества данных.
Ресурсы. Скорее всего, вам нужно гораздо больше, чем даже их лучшие виртуальные машины. Настройка - это боль, если вы не контролируете оборудование.
Стоимость. В самом деле. Все, что до 24/7, дорого в Амазонке.

Если это может быть включена карта / recude или что-то в этом роде - да. Установка ядра Oracle RAC в Buta 96 (что мало для Exadata) - это не то, что я хотел бы попробовать на Amazon.

И тогда у них нет специального оборудования. Как и RAID-контроллеры Oracle ExaData, которые уже отфильтровывают ненужные строки (используя их индекс хранения).

Итак, я бы сказал: нет.

JohnFx · Answer 3 · 12 июля 2011

Хранение не будет проблемой. Облако Amazon - это просто компьютеры (виртуальные) в другом месте. Поэтому тот факт, что он находится в облаке Amazon, на самом деле не меняет уравнения производительности, если только вы не соберете огромные наборы данных в приложение, находящееся за пределами этого облака.

Перенос 5 ГБ данных в день, вероятно, является более сложной задачей, но это кажется выполнимым.

Можно ли использовать Amazon Web Services (AWS) для огромных баз данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Можно ли использовать Amazon Web Services (AWS) для огромных баз данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов