Question

Я пытаюсь анонимизировать большой набор данных, содержащий около 600 тыс. Записей (удаление конфиденциальной информации, такой как электронная почта и т. Д.), Чтобы ее можно было использовать для некоторых тестов производительности.

Я использую Скала (Касба) с Монго.Фактический сценарий довольно прост и понятен.Когда я запускаю сценарий, весь процесс начинается довольно быстро - разбирает 1000 записей каждые 2-3 секунды, но он сильно замедляется и начинает ползти очень медленно.

Я знаю, что это довольно расплывчато, не слишком много деталейНо есть идеи, почему это происходит, и какие-либо намеки на то, как я мог бы ускорить это?

jeffreyveon · Answer 1 · 10 октября 2011

Оказалось, проблема с драйвером, а не с Mongo.Когда я попробовал те же самые вставки, используя оболочку Монго, все было без пота.

ОБНОВЛЕНИЕ

Итак, я попробовал оба подхода.Вставка в существующую коллекцию и вывод результатов в новую коллекцию.Первый подход был быстрее для меня.Конечно, никогда не следует предполагать, что это всегда так, и нужно сравнивать, прежде чем выбирать первый подход вместо второго.В обоих случаях Монго был очень и очень быстр (это значит - не потребовались часы, чтобы это сделать).Была проблема с интерфейсом Java, который я использовал для соединения с Mongo, что было скорее глупой ошибкой с моей стороны.

MongoDB - анонимизирует 600 тыс. Записей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

MongoDB - анонимизирует 600 тыс. Записей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов