pdfjs: получить необработанный текст из pdf с правильным переводом строки / строки - PullRequest
0 голосов
/ 12 февраля 2019

Используя pdf.js , я сделал простую функцию для извлечения необработанного текста из PDF:

async getPdfText(path){

    const pdf = await PDFJS.getDocument(path);

    const pagePromises = [];
    for (let j = 1; j <= pdf.numPages; j++) {
        const page = pdf.getPage(j);

        pagePromises.push(page.then((page) => {
            const textContent = page.getTextContent();
            return textContent.then((text) => {
                return text.items.map((s) =>  s.str).join('');
            });
        }));
    }

    const texts = await Promise.all(pagePromises);
    return texts.join('');
}

// usage
getPdfText("C:\\my.pdf").then((text) => { console.log(text); });

, однако я не могу найти способ для правильного извлеченияновые строки, весь текст извлекается в одну строку.

Как правильно извлечь текст?Я хочу извлечь текст так же, как на настольном ПК:

Откройте PDF (нажмите на файл, нажмите на него) -> выберите весь текст (CTRL + A) -> скопируйте выбранный текст (CTRL + C)) -> вставить скопированный текст (CTRL + V)

...