Я пытаюсь извлечь текст из файлов PDF с помощью Perl. Я использовал pdftotext.exe
из командной строки (то есть с помощью функции Perl system
) для извлечения текста из файлов PDF, этот метод отлично работает.
Проблема в том, что у нас есть такие символы, как & alpha ;, & beta; и другие специальные символы в файлах PDF, которые не отображаются в сгенерированном текстовом файле. Также несколько лишних пробелов добавляются случайным образом в тексте.
Существует ли лучший и более надежный способ извлечения текста из файлов PDF, чтобы в текст входили все символы, такие как & alpha ;, & beta; и т. д. и текст будет точно соответствовать тексту в PDF (т. е. без лишних пробелов)?