MapReduce для массового обновления хранилища данных - PullRequest
1 голос
/ 09 февраля 2012

Мне нужно массово обновить хранилище данных с помощью файла CSV (250 000 строк) с использованием Python. Из исследования этой области я вижу, что MapReduce подойдет для этой проблемы.

Я нашел несколько примеров, показывающих похожие действия, но не могу найти пример того, как выполнить простое массовое обновление хранилища данных с использованием этой библиотеки.

Знаете ли вы какие-либо примеры в этой области или вы могли бы указать мне правильное направление, пожалуйста?

Спасибо

http://code.google.com/p/appengine-mapreduce/wiki/GettingStartedInPython

Ответы [ 2 ]

1 голос
/ 10 февраля 2012

mapreduce может выдать mapreduce.operation.db.Put (entity) в качестве итератора, механизм приложения может обработать обновление очень эффективно. Или вы можете просто поместить db.put (entity) в ваш метод mapreduce. Похоже на меня, вы читаете данные из файла и обновляете все связанные объекты, mapreduce, вероятно, не лучший инструмент для этого.

0 голосов
/ 10 февраля 2012

Вы также можете использовать пакетный загрузчик для загрузки данных из csv в хранилище данных.

...