Я пытаюсь извлечь некоторую информацию из PDF. Я пытаюсь использовать getpdftext.pl
из модуля CAM::PDF
. Когда я просто запускаю $~ getpdftext.pl sample.pdf
, он выводит текст в формате PDF на стандартный вывод.
Но я думаю записать это в текстовый файл и разобрать необходимые поля в perl. Может кто-нибудь подсказать, как это сделать?
Но когда я пытаюсь вызвать pdftotext.pl
внутри моего Perl-скрипта, я получаю No such file
ошибку.
# программа для извлечения текста из pdf и сохранения его в текстовом файле
use PDF;
use CAM::PDF;
use CAM::PDF::PageText;
use warnings;
use IPC::System::Simple qw(system capture);
$filein = 'sample.pdf';
$fileout = 'output1.txt';
open OUT, ">$fileout" or die "error: $!";
open IN, "getpdftext.pl $filein" or die "error :$!" ;
while(<IN>)
{
print OUT $fileout;
}