Наша команда должна искать более 75 терминов в каждом ежедневном потоке файлов PDF. Эти файлы обычно более 50 страниц. Я создаю инструмент, чтобы сделать это проще.
Представьте веб-страницу со списком поисковых терминов внизу слева и средство просмотра PDF. js в iFrame справа. Мне удалось выяснить, как выполнить одну операцию поиска / поиска следующего, когда пользователь нажимает термин слева. Программа просмотра PDF выделяет хиты и прокручивает к следующему. Это круто, и уже значительно упростит этот процесс.
Но теперь я хочу предварительно выполнить поиск документа PDF, чтобы отфильтровать список, прежде чем пользователь начнет щелкать. Я хочу получить логическое значение для каждого термина - это в PDF или нет - так, чтобы я мог отфильтровать эти 75 терминов по 5-10.
Но я хочу, чтобы не хотел использовать для этого стандартную функцию поиска в PDF. js. Он прокручивает средство просмотра PDF, и это будет странно для пользователя. Он также может создавать коллизии, пытаясь найти все термины одновременно; или Мне нужно собрать несколько очередей, чтобы сделать их одну за другой, что выглядит довольно неуклюже.
Я попытался просто получить .innerText тела документа и JavaScript .includes () или поиск RegEx, чтобы определить, появляется ли каждый термин. Но так как это 50-страничные PDF-файлы, у зрителя в данный момент загружается только несколько таких страниц. (о, потерянные часы, чтобы понять это)
Как я могу получить полноту этого HTML или innerText, чтобы я мог проверять каждый термин, не заставляя зрителя прокручиваться? Или каким-то другим способом, как я могу получить это логическое значение для каждого термина?