Порядок полей (или даже больше: аннотаций) на странице определяется записью Tabs в словаре страницы. Его значение указано как:
(Необязательно; PDF 1.5) Имя, определяющее порядок табуляции, который должен использоваться для аннотаций на странице (см. 12.5 «Аннотации»). Возможные значения: R (порядок строк), C (порядок столбцов) и S (порядок структур). Начиная с PDF 2.0, возможные значения также включают A (порядок массива аннотаций) и W (порядок виджетов). Порядок массива аннотаций относится к порядку аннотации, перечисленной в записи Annots словаря страницы (см. «Таблица 31 - Записи в объекте страницы»). Порядок виджетов означает использование того же порядка массива, но с двумя проходами: первый выбирает только аннотации виджета, а второй - все остальные аннотации.
(ISO 32000-2, Таблица 31 - Записи в объекте страницы)
Для реализации вашей задачи извлечения полей для сортировки в зависимости от порядка табуляции, определенного в PDF , поэтому вам необходимо прочитать это значение для рассматриваемой страницы и, в зависимости от него, проанализировать аннотацию координаты, структурное дерево или массив аннотаций соответственно.
Кстати, для полей с несколькими виджетами это означает, что они также имеют несколько позиций табуляции; таким образом, экспорт полей для сортировки в зависимости от порядка табуляции, определенного в PDF , может быть невозможен для некоторых документов.