Сценарии PDF. js для «предварительного поиска» списка терминов из 50+ страниц PDF - PullRequest
0 голосов
/ 27 февраля 2020

Наша команда должна искать более 75 терминов в каждом ежедневном потоке файлов PDF. Эти файлы обычно более 50 страниц. Я создаю инструмент, чтобы сделать это проще.

Представьте веб-страницу со списком поисковых терминов внизу слева и средство просмотра PDF. js в iFrame справа. Мне удалось выяснить, как выполнить одну операцию поиска / поиска следующего, когда пользователь нажимает термин слева. Программа просмотра PDF выделяет хиты и прокручивает к следующему. Это круто, и уже значительно упростит этот процесс.

Но теперь я хочу предварительно выполнить поиск документа PDF, чтобы отфильтровать список, прежде чем пользователь начнет щелкать. Я хочу получить логическое значение для каждого термина - это в PDF или нет - так, чтобы я мог отфильтровать эти 75 терминов по 5-10.

Но я хочу, чтобы не хотел использовать для этого стандартную функцию поиска в PDF. js. Он прокручивает средство просмотра PDF, и это будет странно для пользователя. Он также может создавать коллизии, пытаясь найти все термины одновременно; или Мне нужно собрать несколько очередей, чтобы сделать их одну за другой, что выглядит довольно неуклюже.

Я попытался просто получить .innerText тела документа и JavaScript .includes () или поиск RegEx, чтобы определить, появляется ли каждый термин. Но так как это 50-страничные PDF-файлы, у зрителя в данный момент загружается только несколько таких страниц. (о, потерянные часы, чтобы понять это)

Как я могу получить полноту этого HTML или innerText, чтобы я мог проверять каждый термин, не заставляя зрителя прокручиваться? Или каким-то другим способом, как я могу получить это логическое значение для каждого термина?

...