Пытаюсь обработать большие объемы данных порядка 5-10 миллионов.
Я использую Mapper в GoogleAppEngine / Java с частотой задач 100 / с и размером 100 с включенным биллингом.
Чтение и запись в хранилище данных во время итерации карты очень сильно влияет на общую скорость.Поэтому, если я смогу читать / записывать строки и массивы как переменные, отличные от простых счетчиков, это может значительно ускорить процесс.
Справочная информация. Я пытаюсь дедуплицировать большие данные в отношении нескольких текстовых полей.Так что в основном я должен выполнить N картографических заданий и сравнить с остальными данными.