Обработка больших наборов данных (neo4j, mongo db, hadoop) - PullRequest
4 голосов
/ 14 ноября 2011

Я ищу лучшие практики для обработки данных.Итак, вот что я получил: 1.000.000 узлов типа «А».Каждый узел "A" может быть подключен к 1-1000 узлам типа "B" и 1-10 узлам типа "C".

Я написал службу RESTful (Java, Джерси) для импорта данныхв граф neo4j.После импорта узлов "A" (только узлы, с идентификаторами, без дополнительных данных) у меня есть уведомления, что база данных neo4j выросла до ~ 2,4 ГБ.

Стоит ли хранить дополнительные поля (имя, описание, ...) в neo4j?Или я должен настроить mongoDB / hadoop для использования комбинации ключ / значение для доступа к данным?

1 Ответ

2 голосов
/ 14 ноября 2011

Вы удалили много узлов во время вставки?Обычно узел занимает 9 байтов на диске, поэтому ваши 1М узлы должны занимать 9Мбайт.Вы должны включить повторное использование идентификатора, чтобы агрессивно восстановить память.

Не могли бы вы перечислить содержимое вашего каталога данных с размерами файлов?

Как правило, нет проблем в том, чтобы поместить другие поля в neo4j, если они не являются большими полями BLOB-объектов.

Как вы создали БД?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...