У меня есть документ PDF, открытый с помощью Adobe Acrobat Pro. На консоли Javascript я выполняю
getPageNumWords(0)
и получаю 570 в качестве вывода;число, как и ожидалось.
Затем я выполняю
getPageNthWord(0,0,true)
Но возвращаемое значение является пустой строкой, в то время как она должна быть некоторой строкой. То же самое касается каждого слова (я сделал цикл for для проверки)
Обычно это работает нормально, у меня есть несколько простых сценариев в течение многих лет, которые выполняют некоторые действия (перемещение, вставка, удаление, ..., страницы)) на основе ключевых слов в тексте.
Любая идея, почему это не работает в некоторых случаях? Обратите внимание, что в файле есть текст, я могу выделить текст мышью, скопировать и вставить в другое место.
В основном, есть идеи, как это исправить или обойти это? Я попытался (повторно) сохранить файл, но безуспешно, возможно, принудительно провести некоторую оптимизацию ...?
Редактировать: При дальнейших попытках я замечаю, что есть некоторые страницы (последние 12), на которых getPageNthWord работает, как ожидалось,Рассматривая внутреннюю структуру PDF, я замечаю, что / Catalog содержит «/ PageLabels << / Nums ...» около 12 страниц. Я попытаюсь проверить эту структуру дальше, пока я напечатал эту чертову штуку и разобрал ее вручную ... </p>