FWIW мы обрабатываем большие CSV в хранилище данных, используя mapreduce, с некоторой начальной обработкой / проверкой внутри задачи.Даже задачи имеют ограничение (10 минут) на данный момент, но это, вероятно, хорошо для вашего размера данных.
Убедитесь, что вы делаете вставки и т. Д.вы пакетируете как можно больше - не вставляете отдельные записи, и то же самое для поиска - get_by_keyname позволяет передавать массив ключей.(Я полагаю, что на данный момент db put имеет ограничение в 200 записей?)
Mapreduce может быть излишним для того, что вы делаете сейчас, но это определенно стоит обдумать, это необходимо для большегонаборы данных.
Наконец, синхронизация всего, что есть в SDK, в значительной степени бессмысленна - думайте об этом как об отладчике больше, чем что-либо еще!