Как определить, сканируется ли содержимое файла .pdf или нет - PullRequest
3 голосов
/ 04 марта 2010

Итак, у меня есть файл .pdf, и я должен иметь возможность определить, был ли он создан путем сканирования в PDF или нет. Я пытаюсь определить, является ли это PDF-файл, который я могу отобразить в виде текста.

В моем распоряжении PHP & Zend. Я думаю, что смогу использовать Zend's

$pdf->properties['Producer']

но я не уверен на 100%.

Можно ли быть уверенным в том, с каким PDF-файлом я имею дело?

Ответы [ 2 ]

3 голосов
/ 04 марта 2010

Звучит сложно для меня. Существует множество различных идентификаторов «производителей», многие из которых поддерживают создание PDF-файлов из любого источника, будь то сканирование, отправка по факсу, текстовый процессор или еще много чего. Существует так много способов создать PDF-файл, что вы никогда не сможете отследить, откуда он пришел.

Если вы хотите определить, можете ли вы отображать его как текст или нет, почему бы не попытаться извлечь из него какой-то фактический текст? Если он отсканирован (или любой другой вид встроенного изображения), у него не должно быть текстового содержимого или оно будет очень небольшим. Но кроме того, есть программы OCR, которые создают отсканированный PDF, который также содержит машиночитаемый текст. Как вы хотите справиться с этим?

Какова ваша конечная цель с этим?

0 голосов
/ 27 марта 2017

Чтобы определить, был ли файл PDF отсканирован, откройте его с помощью Adobe Acrobat Reader.

Проверьте, можете ли вы выбрать текст, это означает, что документ НЕ был отсканирован.

enter image description here

Однако, если ваша попытка выделить текст возвращается к графическому полю выбора, это означает, что документ был отсканирован.

enter image description here

...