Это правда, что нет индекса по размеру документа для быстрого поиска самых больших. Но есть несколько вариантов поиска больших документов.
Один из них - запустить пакетное задание, которое сканирует большие документы, используя вышеуказанную функцию для вычисления размера. Также немного проще использовать сериализованную длину с длиной строки XQuery (xdmp: quote (doc ($ uri))) или xdmp.quote JavaScript (cts.doc ("/ my / uri / here")). Length.
Функции Corb или NiFi или порождения на сервере задач через xdmp.spawnFunction () могут выполнять такую большую работу в течение определенного периода времени, когда вы проверяете размер каждого документа и сохраняете запись или регистрируете индикатор, если он был за некоторый предел размера. Затем вы будете искать или grep для наибольшего размера.
Иногда, если вы знаете структуру и некоторые общие термины, которые будут в большом документе, вы можете искать документы, которые содержат общее слово или термин много раз, используя cts.wordQuery ("theCommonTerm") и опция "мин-происходит = число". Вам нужно настроить число минимальных встреч, чтобы сузить размер до самых больших документов, а затем выполнить запрос размера только для них.