Как найти документ и страницу (pdf), которые содержат данный фрагмент текста - PullRequest
0 голосов
/ 12 марта 2019

У меня есть набор очень длинных pdf документов (содержащих в основном текст и рисунки) и фрагмент текста (несколько строк).Есть ли какая-нибудь библиотека, которая помогает мне найти документ + страницу, которая содержит заданный фрагмент текста.

Важно, что документы каким-то образом индексируются, потому что при выполнении поиска необработанные документы больше не доступны.Цель состоит в том, чтобы найти «происхождение фрагмента текста» с помощью документа и страницы.

Дополнительные требования: - автономное использование - легкие функции приближения (возможно, фрагмент текста содержит орфографическую ошибку, опечатку,...).

...