Вы можете использовать пакет pdfjs-dist
для чтения содержимого PDF. По моему опыту это работало большинство времени. У меня было несколько случаев, когда он не возвращал содержимое, хотя я мог видеть, что в файле есть текст. Я не пытался понять, почему это так, но большую часть времени он работал для меня без проблем. Кроме того, я использовал его только для проверки текста. Я не пытался использовать его для изображений, поэтому я не уверен, что он сможет это сделать. Вы можете найти более подробную информацию здесь .
Это позволит вам получить весь текст в массив. То, что вы делаете с этим от вас, зависит от вас.
pdfjs.getDocument('path/to/your/file.pdf').then(function(document) {
document.getPage(1).then(function(page) {
page.getTextContent().then(function(text) {
const allText = text.items.map(function(s) { return s.str }).concat('');
//console.log(allText);
});
});
});