Это хорошая идея? (Синтаксический анализ XML -> JSON -> вставка и индексирование!)
Это работает? JSON, как правило, меньше XML, это, вероятно, хорошее изменение.
Можно ли использовать GridFS и получать эквиваленты блоков для записей для каждого файла? Как?
GridFS обычно предназначена для хранения статических файлов, таких как изображения или видео. MongoDB может поддерживать очень большие документы ( 16MB == несколько романов ). Текст для статьи в Medline, вероятно, будет намного меньше, чем этот.
Если вы просто планируете хранить текст, то вам не нужен GridFS. Если вы хотите хранить изображения, то для этого полезно использовать GridFS.
Пожалуйста, прочтите GridFS здесь . Обратите внимание, что GridFS - это просто спецификация. Все по-прежнему хранится в обычных коллекциях MongoDB.
PS: похоже, pubmedID
- это уникальный ключ. Вы можете сэкономить место, переопределив _id
на pubmedID
при создании документа.
т.е.: collection.insert({"_id": xml_obj.pubmedID, "text" : xml_obj.article_text})