MongoDB - анонимизирует 600 тыс. Записей - PullRequest
2 голосов
/ 10 октября 2011

Я пытаюсь анонимизировать большой набор данных, содержащий около 600 тыс. Записей (удаление конфиденциальной информации, такой как электронная почта и т. Д.), Чтобы ее можно было использовать для некоторых тестов производительности.

Я использую Скала (Касба) с Монго.Фактический сценарий довольно прост и понятен.Когда я запускаю сценарий, весь процесс начинается довольно быстро - разбирает 1000 записей каждые 2-3 секунды, но он сильно замедляется и начинает ползти очень медленно.

Я знаю, что это довольно расплывчато, не слишком много деталейНо есть идеи, почему это происходит, и какие-либо намеки на то, как я мог бы ускорить это?

1 Ответ

1 голос
/ 10 октября 2011

Оказалось, проблема с драйвером, а не с Mongo.Когда я попробовал те же самые вставки, используя оболочку Монго, все было без пота.

ОБНОВЛЕНИЕ

Итак, я попробовал оба подхода.Вставка в существующую коллекцию и вывод результатов в новую коллекцию.Первый подход был быстрее для меня.Конечно, никогда не следует предполагать, что это всегда так, и нужно сравнивать, прежде чем выбирать первый подход вместо второго.В обоих случаях Монго был очень и очень быстр (это значит - не потребовались часы, чтобы это сделать).Была проблема с интерфейсом Java, который я использовал для соединения с Mongo, что было скорее глупой ошибкой с моей стороны.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...