Проверка PDF-файлов с возможностью поиска (изображение + текст PDF) - PullRequest
2 голосов
/ 06 мая 2009

Я проверяю, доступен ли документ PDF для поиска, могу ли я получить какой-либо текст с каждой отдельной страницы в PDF.

Но проверка каждой страницы кажется бесконечной, когда я пытаюсь извлечь текст из PDF, который содержит более 500 ~ 2000 страниц.

Возможно ли, чтобы PDF содержал текст для одной страницы, но не для остальных? Здесь я пытаюсь сделать следующее: если первая страница PDF содержит текст, то это PDF-файл с возможностью поиска, а не ..

Ответы [ 2 ]

2 голосов
/ 09 мая 2009

Да, PDF-файл может содержать текст на одной странице, но не на остальных. Вы вполне можете иметь 500-страничный PDF-файл, содержащий изображения на первых 499 страницах, но содержащий текст на последней странице.

Если вы не хотите открывать файл PDF самостоятельно и сканировать его на наличие текстовых / текстовых операций, вам потребуется использовать существующую стороннюю библиотеку PDF, которая позволяет извлекать текст из PDF.

Также см. Ответ Ферруччо на связанный вопрос , который должен использовать интерфейс IFilter, специально созданный для индексации поиска и извлечения текста.

0 голосов
/ 06 мая 2009

Попробуйте эту версию Searcharoo , которая позволяет искать документы Word и PDF.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...