pdf. js getTextContent не может извлечь текст - PullRequest
0 голосов
/ 04 апреля 2020

У меня есть PDF-файл с именами, прикрепленными в разных точках к изображению. Я хочу извлечь координаты имен, чтобы я мог делать разные умные вещи. Pdf. js из Mozillla имеет аккуратную функцию getTextContent, которая должна делать то, что я хочу: на самом деле она работает с различными тестовыми файлами. Код выглядит так:

var loadingTask = pdfjsLib.getDocument({data: text});
loadingTask.promise.then(function(pdf) {
    pdf.getPage(1).then(function(page) {
        page.getTextContent().then(function(textContent) {
            //text should be in a nice items array..
        });
    });
});

Увы, для этого файла это не работает. Я могу посмотреть на это в редакторе Acrobat PDF, и текст там, в отдельных ограничивающих прямоугольниках et c. Но функция getTextContent возвращает пустой массив элементов. Что дает?

У меня проблемы с файлом: WBP stemmati c

Просто чтобы прояснить: я получаю pdf. js построить из

       <script type="text/javascript"  src="https://mozilla.github.io/pdf.js/build/pdf.js"></script>

Затем я загружаю это в документ с помощью:

        pdfjsLib = window['pdfjs-dist/build/pdf'];

и получаю рабочих тоже:

    pdfjsLib.GlobalWorkerOptions.workerSrc = 'https://mozilla.github.io/pdf.js/build/pdf.worker.js';
...