У меня огромный набор данных, я использую схемы mon goose, и каждый элемент данных выглядит следующим образом:
{
field1: “>HWI-ST700660_96:2:1101:1455:2154#5@0/1”:
field2: “GAA…..GAATG”
}
Источник: Чтение файла FASTA
Как видите, отдельные элементы простые и маленькие, но их огромное количество! Вместе они будут превышать 200 МБ.
Проблема в следующем: Я не могу сохранить его в mon go, поскольку он слишком большой (> 200 МБ) .
Я нашел GridFs, тем не менее,
Все найденные мной материалы рассказывают о загрузке изображений и видео;
Они не говорят, как я все еще мог бы использовать возможность схемы mon goose;
Примеры, которые я видел до сих пор, не сохраняют данные в пути, определенные пользователем, как мы делаем с mon goose.
В самом простом сценарии: как я могу сохранить файл JSON, используя GridFS, или любое подобное решение, как я делаю с маленьким JSON файлы. Каковы плюсы и минусы этого подхода по сравнению с другими подходами, если таковые имеются? Считаете ли вы мой подход обоснованным? Я имею в виду тот, который я упомянул здесь, используя дерево JSON файлов и populate
позже, это работает!
В качестве примера сохранения файла JSON с использованием mon goose:
Model.create([
{
field1: “>HWI-ST700660_96:2:1101:1455:2154#5@0/1”:
field2: “GAA…..GAATG”
},
{
field1: “>HWI-ST700660_96:2:1101:1455:2154#5@0/1”:
field2: “GAA…..GAATG”
}]);
Здесь я только что сохранил двухэлементный файл JSON, я не могу сделать это с огромным, мне нужно разбить на более мелкие кусочки (например, 1%) и создать дерево только что упомянул, по крайней мере, это было мое решение.
Боюсь, я могу заново изобретать колеса. Я мог бы сохранить эти файлы независимо, и это работает, но мне нужно, чтобы они были коррелированными, потому что они принадлежат одному и тому же файлу, как маленькие куски изображения принадлежат одному и тому же изображению.
Боюсь, я возможно, заново изобретаем колеса.
Текущее решение
Это мое текущее решение, используя мои собственные идеи! Обратите внимание, что я упоминаю здесь просто для любопытства , он не использует GridFS, поэтому я все еще открыт для предложений по использованию GridFS. Он использует только JSON файлов и разбивает документ на более мелкие, на уровне иерархии. Это дерево, и я просто хочу листья в растворе.
Я решил проблему , используя эту диаграмму тем не менее, я хочу, чтобы в учебных целях, см. , если возможно сделать то же самое, используя GridFS .
Дискуссия
Мой первый подход состоял в том, чтобы сохранить их как subdo c: это не удалось! затем я попытался сохранить только их идентификаторы, их идентификаторы соответствуют 35% всего фрагмента, и он больше 16 МБ: не удалось! затем я решил создать фиктивный документ, просто чтобы сохранить идентификаторы, и хранить только идентификатор фиктивных документов: успехов!