Выбор хорошего решения зависит от требований предполагаемого использования, скажем, разницы между хранением юридических документов навсегда бесплатной музыкальной службой. Например, могут ли объекты быть воссозданы или они уникальны? Будут ли они требовать дальнейших этапов обработки (например, MapReduce)? Как быстро должен быть извлечен объект (или его часть)? Ответы на эти вопросы сильно повлияют на набор решений.
Если объекты могут быть воссозданы достаточно быстро, простое решение может заключаться в использовании Memcached, как вы упомянули на многих машинах, в общей сложности достаточно оперативной памяти. Чтобы добавить к этому настойчивость позже, CouchBase (ранее Membase) стоит того, чтобы его посмотреть и использовать в производстве для очень больших игровых платформ.
Если объекты НЕ МОГУТ воссоздаться, определите, не будут ли S3 и другие поставщики облачных файлов соответствовать требованиям на данный момент. Для доступа с большим количеством пользователей рассмотрите одно из нескольких распределенных, параллельных, отказоустойчивых решений файловой системы: DDN (имеет GPFS и блеск), Panasas (pNFS). Я использовал снаряжение DDN, и его цена была лучше, чем у Panasas. Оба предоставляют хорошие решения, которые гораздо более поддерживаются, чем DIY BackBlaze .
Существует несколько в основном бесплатных реализаций распределенных параллельных файловых систем, таких как GlusterFS и Ceph , которые набирают обороты. Ceph рекламирует S3-совместимый шлюз и может использовать BTRFS (будущая замена Luster; приближается к производству). Архитектура и презентации Ceph . Преимущество Gluster - возможность коммерческой поддержки, хотя может быть поставщик, поддерживающий развертывание Ceph. HDFS Hadoop может быть сопоставимым, но я не оценивал его в последнее время.