предложить базу данных для хранения метаданных относительно 200 миллионов изображений (1 миллион книг) (NoSQL? SQL?) - PullRequest
3 голосов
/ 24 июня 2010

Друзья,

Мы предпримем проект по сохранению знаний для сканирования более 1 миллиона книг. Нам нужны некоторые предложения по реализации базы данных для хранения и извлечения метаданных, а также ее использования для отслеживания статуса сканирования каждого объекта (книги)

  1. Можете ли вы, ребята, предложить, чтобы мы пошли на SQL или NoSQL (метаданные могут отличаться от проекта к проекту, скажем, что этот проект может иметь 15 полей)

  2. Мы думаем о чем-то, основанном на Lucene / Solr или некоторой базе данных Scalable RDF

  3. Любое решение с открытым исходным кодом, где у нас есть возможность определять настраиваемые поля метаданных и хранить информацию с помощью функции поиска?

Ответы [ 2 ]

0 голосов
/ 18 октября 2011

Подобное решение может быть создано с использованием любой базы данных и некоторого пользовательского кода, но, вероятно, его можно упростить с помощью CMS (системы управления контентом).Решения CMS скрывают детали базовой базы данных и позволяют вам работать с расширяемым набором метаданных для описания ваших документов.

Какие системы CMS вы используете, зависит от вашего бюджета, внутренних знаний и ваших потребностей.другие факторы.Я использовал Alfresco (коммерческий открытый исходный код), отчасти потому, что моя компания уже определилась с этим, но если бы я делал малобюджетный веб-сайт, я мог бы рассмотреть версию не-Enterprise.Ох, и Alfresco использует Lucene для поиска.

Если ваши потребности очень просты, тогда базы данных для метаданных, файловой системы для изображений и некоторого кода для вашего сервера должно быть достаточно.Старайтесь не пытаться хранить изображения в базе данных, так как из моего опыта это не то, что базы данных работают лучше всего.

0 голосов
/ 24 июня 2010

Отказ от ответственности: Никогда не пытался проект такого типа

Я видел очень хорошую производительность на сервере MSSQL типа Filestream. Он использует файловые API-интерфейсы NTFS для хранения двоичных данных и сохраняет указатель на строки вашей таблицы.

Если у вас нет структуры метаданных, вы можете использовать XML, но если у вас есть повторяющаяся структура, вставьте ее в реляционные данные, а затем вы можете использовать индексирование и т. Д., Чтобы повысить производительность.

Тип файлового потока

...