У меня есть коллекция миллионов документов следующим образом:
{
customerId: "12345" // string of numbers
foo: "xyz"
}
Я хочу прочитать каждый документ в коллекции и использовать данные в каждом для большого пакетного задания. Каждый клиент независим, но один клиент может иметь несколько документов, которые должны обрабатываться вместе.
Я хотел бы разделить работу на N отдельных запросов, то есть N задач (которые могут быть распределены по M клиентам, если N> M ).
Как каждый запрос может эффективно учитывать различные исключительные и смежные наборы клиентов?
Один из способов может заключаться в том, чтобы задача 1 опрашивала всех клиентов, чьи идентификаторы начинаются с " 1" ; Задача 2 - запросить все документы для всех клиентов, чьи идентификаторы начинаются с "2" и c, что дает N = 10, который можно распространить на 10 клиентов. Не уверен, что запрос по подстроке быстрый, хотя. Есть ли лучший метод?