Как извлечь текст используя Zend_Pdf со страницы pdf - PullRequest
2 голосов
/ 22 марта 2010

Может кто-нибудь помочь с извлечением текста со страницы в формате PDF?

<?php
$pdf = Zend_Pdf::load('example.pdf');
$page = $pdf->page[0];

Я бы предположил, что существует метод страницы, но не смог найти ничего, что позволило бы мне извлечь содержимое.

Пример: $ page-> getContents (); $ PAGE-> ToString (); $ PAGE-> extractText ();

... Помощь !!!! Это сводит меня с ума!

Ответы [ 2 ]

2 голосов
/ 23 марта 2010

Я согласен с Энди, что это не поддерживается. В качестве альтернативы взгляните на решение Шона Фаррелла для извлечения текста из PDF для использования с Zend_Search_Lucene . Он использует XPDF , что также может удовлетворить ваши потребности.

0 голосов
/ 22 марта 2010

С руководство не представляется, что эта функция поддерживается. Кроме того, новый текст пишется с использованием функции drawText () , которая, как представляется, записывает изображения, а не простой «декодируемый» текст.

...