Пустая строка из getPageNthWord - PullRequest
0 голосов
/ 01 октября 2019

У меня есть документ PDF, открытый с помощью Adobe Acrobat Pro. На консоли Javascript я выполняю

getPageNumWords(0)

и получаю 570 в качестве вывода;число, как и ожидалось.

Затем я выполняю

getPageNthWord(0,0,true)

Но возвращаемое значение является пустой строкой, в то время как она должна быть некоторой строкой. То же самое касается каждого слова (я сделал цикл for для проверки)

Обычно это работает нормально, у меня есть несколько простых сценариев в течение многих лет, которые выполняют некоторые действия (перемещение, вставка, удаление, ..., страницы)) на основе ключевых слов в тексте.

Любая идея, почему это не работает в некоторых случаях? Обратите внимание, что в файле есть текст, я могу выделить текст мышью, скопировать и вставить в другое место.

В основном, есть идеи, как это исправить или обойти это? Я попытался (повторно) сохранить файл, но безуспешно, возможно, принудительно провести некоторую оптимизацию ...?

Редактировать: При дальнейших попытках я замечаю, что есть некоторые страницы (последние 12), на которых getPageNthWord работает, как ожидалось,Рассматривая внутреннюю структуру PDF, я замечаю, что / Catalog содержит «/ PageLabels << / Nums ...» около 12 страниц. Я попытаюсь проверить эту структуру дальше, пока я напечатал эту чертову штуку и разобрал ее вручную ... </p>

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...