Относительно 1)
Вы можете указать MLCP для потока ввода на каталог, а не на один файл, и он должен обработать все файлы в поддереве за один прогон.После завершения входного потока вы можете запустить гармонизацию, и сборщик гармонизации должен выбрать все доступные файлы.
Однако, если вы хотите распараллелить загрузку, возможно, вам не следует загружать всеза один заход.Настройте ваш MLCP, чтобы добавить дополнительную коллекцию с указанием некоторого номера импорта или просто имени файла агрегатного файла.Настройте свой сборщик, чтобы принять (необязательный?) Дополнительный аргумент, который обрезается до этого номера импорта или совокупного имени файла.Затем вы запускаете импорт одного агрегата и запускаете для него гармонизацию после его завершения.Не дожидаясь завершения, вы делаете то же самое для второго агрегата.Дито для остальных один за другим.
Относительно 2)
Увеличение чисел не гарантирует увеличение скорости.Если гармонизация является относительно тяжелой, вам может быть лучше с меньшим размером партии и меньшим количеством нитей.Посмотрите на память и загрузку процессора.Увеличивайте только если они ниже 90%.Увеличение дальше не поможет, как только вы попадаете на крышу.Горизонтальное масштабирование (добавление дополнительных узлов в ваш кластер) будет единственным решением в этом случае.
Также учитывайте скорость ввода-вывода.MarkLogic может записывать на диск только настолько быстро, насколько позволяет хранилище.В этом может помочь большее количество лесов и больше узлов в кластере, в котором хранятся леса.
Относительно 3)
Подумайте о профилировании вашего кода гармонизации.Импорт звучит довольно быстро.80 тыс. Документов за 30 секунд очень прилично, но согласование происходит намного медленнее.Возможно, в этом есть некоторые неэффективные шаги.
Игра с предложениями, которые я привел выше, может дать вам ощущение, что есть место для улучшений, но часто самый большой выигрыш можно найти в самом коде.
HTH!