Поиск текста в формате PDF - двойные результаты - PullRequest
0 голосов
/ 16 апреля 2020

У меня есть вопрос о поиске текста в PDF-файле, прикрепленном здесь: pdf ссылка на Google Drive . Если я ищу текстовый пример «1500», я вижу 4 случая, но на странице 2 только 2 случая. То же самое, если я ищу текст «musei», нахожу 2 случая, но этот текст только на странице 1.

Исследование анализирует одну страницу и находит весь текст документа на каждой странице, потому что у меня двойные результаты.

Кто-нибудь может объяснить, почему это происходит? Этот файл PDF, сгенерированный особым образом, учитывает другие, где поиск текста в порядке?

Большое спасибо

1 Ответ

0 голосов
/ 16 апреля 2020

Этот PDF действительно особенный, каждая страница содержит текст обеих страниц. На первой странице текст со второй страницы находится справа от границы правой страницы, а на второй странице текст с первой страницы слева от границы левой страницы. Кроме того, содержимое другой соответствующей страницы дополнительно находится за пределами области клипа.

Я увеличил поля страницы (поле мультимедиа, поле кадрирования, ...) первой страницы справа и второй страницы слева, а затем пометить весь текст ( Ctrl-A ), чтобы показать даже текст вне области клипа, и вы увидите:

screen shot

Для извлечения текста, который извлекает текст только в видимых областях, вы должны ограничить свою процедуру извлечения текста полем кадрирования соответствующей страницы.

...