У меня есть PDF-файл с именами, прикрепленными в разных точках к изображению. Я хочу извлечь координаты имен, чтобы я мог делать разные умные вещи. Pdf. js из Mozillla имеет аккуратную функцию getTextContent, которая должна делать то, что я хочу: на самом деле она работает с различными тестовыми файлами. Код выглядит так:
var loadingTask = pdfjsLib.getDocument({data: text});
loadingTask.promise.then(function(pdf) {
pdf.getPage(1).then(function(page) {
page.getTextContent().then(function(textContent) {
//text should be in a nice items array..
});
});
});
Увы, для этого файла это не работает. Я могу посмотреть на это в редакторе Acrobat PDF, и текст там, в отдельных ограничивающих прямоугольниках et c. Но функция getTextContent возвращает пустой массив элементов. Что дает?
У меня проблемы с файлом: WBP stemmati c
Просто чтобы прояснить: я получаю pdf. js построить из
<script type="text/javascript" src="https://mozilla.github.io/pdf.js/build/pdf.js"></script>
Затем я загружаю это в документ с помощью:
pdfjsLib = window['pdfjs-dist/build/pdf'];
и получаю рабочих тоже:
pdfjsLib.GlobalWorkerOptions.workerSrc = 'https://mozilla.github.io/pdf.js/build/pdf.worker.js';