Используя pdf.js , я сделал простую функцию для извлечения необработанного текста из PDF:
async getPdfText(path){
const pdf = await PDFJS.getDocument(path);
const pagePromises = [];
for (let j = 1; j <= pdf.numPages; j++) {
const page = pdf.getPage(j);
pagePromises.push(page.then((page) => {
const textContent = page.getTextContent();
return textContent.then((text) => {
return text.items.map((s) => s.str).join('');
});
}));
}
const texts = await Promise.all(pagePromises);
return texts.join('');
}
// usage
getPdfText("C:\\my.pdf").then((text) => { console.log(text); });
, однако я не могу найти способ для правильного извлеченияновые строки, весь текст извлекается в одну строку.
Как правильно извлечь текст?Я хочу извлечь текст так же, как на настольном ПК:
Откройте PDF (нажмите на файл, нажмите на него) -> выберите весь текст (CTRL + A) -> скопируйте выбранный текст (CTRL + C)) -> вставить скопированный текст (CTRL + V)