Question

Друзья,

Мы предпримем проект по сохранению знаний для сканирования более 1 миллиона книг. Нам нужны некоторые предложения по реализации базы данных для хранения и извлечения метаданных, а также ее использования для отслеживания статуса сканирования каждого объекта (книги)

Можете ли вы, ребята, предложить, чтобы мы пошли на SQL или NoSQL (метаданные могут отличаться от проекта к проекту, скажем, что этот проект может иметь 15 полей)
Мы думаем о чем-то, основанном на Lucene / Solr или некоторой базе данных Scalable RDF
Любое решение с открытым исходным кодом, где у нас есть возможность определять настраиваемые поля метаданных и хранить информацию с помощью функции поиска?

Andre M · Answer 1 · 18 октября 2011

Подобное решение может быть создано с использованием любой базы данных и некоторого пользовательского кода, но, вероятно, его можно упростить с помощью CMS (системы управления контентом).Решения CMS скрывают детали базовой базы данных и позволяют вам работать с расширяемым набором метаданных для описания ваших документов.

Какие системы CMS вы используете, зависит от вашего бюджета, внутренних знаний и ваших потребностей.другие факторы.Я использовал Alfresco (коммерческий открытый исходный код), отчасти потому, что моя компания уже определилась с этим, но если бы я делал малобюджетный веб-сайт, я мог бы рассмотреть версию не-Enterprise.Ох, и Alfresco использует Lucene для поиска.

Если ваши потребности очень просты, тогда базы данных для метаданных, файловой системы для изображений и некоторого кода для вашего сервера должно быть достаточно.Старайтесь не пытаться хранить изображения в базе данных, так как из моего опыта это не то, что базы данных работают лучше всего.

Spence · Answer 2 · 24 июня 2010

Отказ от ответственности: Никогда не пытался проект такого типа

Я видел очень хорошую производительность на сервере MSSQL типа Filestream. Он использует файловые API-интерфейсы NTFS для хранения двоичных данных и сохраняет указатель на строки вашей таблицы.

Если у вас нет структуры метаданных, вы можете использовать XML, но если у вас есть повторяющаяся структура, вставьте ее в реляционные данные, а затем вы можете использовать индексирование и т. Д., Чтобы повысить производительность.

Тип файлового потока

предложить базу данных для хранения метаданных относительно 200 миллионов изображений (1 миллион книг) (NoSQL? SQL?)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

предложить базу данных для хранения метаданных относительно 200 миллионов изображений (1 миллион книг) (NoSQL? SQL?)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы