Как получить текстовые формы защищенные от копирования PDF-файлы или имеющие разные шрифты? - PullRequest
0 голосов
/ 19 мая 2019

Я использую pdfparser для копирования текста из файлов PDF, но некоторые файлы PDF защищены от копирования или имеют другие шрифты, так что pdfparser не работает для этого, возможно ли получить текст из защищенного от копирования PDF?

Этомой код:

// Include Composer autoloader if not already done.
error_reporting(E_ALL);
ini_set('display_errors', 1);
include 'vendor/autoload.php';

// Parse pdf file and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf    = $parser->parseFile('tests.pdf');

// Retrieve all pages from the pdf file.
$pages  = $pdf->getPages();

// Loop over each page to extract text.
foreach ($pages as $page) {
    echo utf8_encode($page->getText());
}

?>

После попытки этого кода я не получаю никакой ошибки или предупреждения.Этот код показывает только пустое пространство.Я также пробовал кодировку utf-8, но она все еще не работает?

1 Ответ

0 голосов
/ 20 мая 2019

Если автор PDF-файла установил флажки «Разрешения» для документа , а не , разрешающего копирование или извлечение текста и графики, вам следует учитывать это. Однако не все программное обеспечение в формате PDF соблюдает такие ограничения.

...