MongoDb против Hadoop для аналитики кликов - PullRequest
0 голосов
/ 10 марта 2019

Я хочу создать аналитический инструмент для отслеживания кликов, который может поддерживать сложные запросы. Я использую DynamoDB в AWS - из-за высокой скорости записи и ее бесплатного уровня, чтобы первоначально хранить входящие данные в пакетах по одной минуте. После этого каждые полчаса лямбда-код AWS будет выполнять ETL в MongoDB. Затем Mongo используется для выполнения запросов и создания воронок.

Причиной выбора mongoDB был ее конвейер агрегации и способность обрабатывать большие неструктурированные наборы данных. Кроме того, MongoDB имеет собственную функцию уменьшения карты - хотя я не уверен, как запустить ее в AWS EMR.

В последнее время я начал сомневаться в решении использовать Mongo, поскольку, похоже, многие люди используют DynamoDB с Hadoop на EMR.

Может кто-нибудь дать мне сравнение Mongo и Hadoop с точки зрения сложности запросов и требований к обработке / оперативной памяти?

Кроме того, было бы замечательно, если бы у Монго был способ уменьшить карту на EMR - получить максимум от конвейера сокращения и агрегации.

Я знаю, что есть разъем mongo-hadoop, но я не совсем понимаю, как его использовать и как его использовать.

...