Как читать / записывать (как String и Array) переменные во время итерации Mapreduce? - PullRequest
0 голосов
/ 21 июля 2011

Пытаюсь обработать большие объемы данных порядка 5-10 миллионов.

Я использую Mapper в GoogleAppEngine / Java с частотой задач 100 / с и размером 100 с включенным биллингом.

Чтение и запись в хранилище данных во время итерации карты очень сильно влияет на общую скорость.Поэтому, если я смогу читать / записывать строки и массивы как переменные, отличные от простых счетчиков, это может значительно ускорить процесс.

Справочная информация. Я пытаюсь дедуплицировать большие данные в отношении нескольких текстовых полей.Так что в основном я должен выполнить N картографических заданий и сравнить с остальными данными.

...