Использование pdf-разбора и достоверного рендера пустой строки при выводе текста - PullRequest
0 голосов
/ 04 января 2019

При просмотре PDF будет время, когда между текстовыми блоками будет пустая строка.

Если я использую pdf-parse , чтобы прочитать файл PDF и преобразовать в текстовый выводпо умолчанию простой пример кода теряет пустые строки.

Из документации не ясно, как быть верным разрывам визуальных строк в PDF.

Пример ввода PDF - https://fountain.io/_downloads/Brick%20&%20Steel.pdf см. Пустую строку между «Авторы» и «Stu Maschwitz».

Я хочу преобразовать PDF в текст и оставить пустую строку, например

Written by

Stu Maschwitz

, а не:

Written by
Stu Maschwitz

Пример кода, который я использую:

const fs = require('fs');
const pdf = require('pdf-parse');

let PDF_FILE = 'brick.pdf';
let dataBuffer = fs.readFileSync(`${PDF_FILE}`);

pdf(dataBuffer, {normalizeWhitespace: false}).then(function(data) {

    // number of pages
    console.log(data.numpages);
    // number of rendered pages
    console.log(data.numrender);
    // PDF info
    console.log(data.info);
    // PDF metadata
    console.log(data.metadata);
    // PDF.js version
    // check https://mozilla.github.io/pdf.js/getting_started/
    console.log(data.version);
    // PDF text
    console.log(data.text);

});

параметры normalizeWhitespace как true или false не имеют значения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...