Question

При просмотре PDF будет время, когда между текстовыми блоками будет пустая строка.

Если я использую pdf-parse , чтобы прочитать файл PDF и преобразовать в текстовый выводпо умолчанию простой пример кода теряет пустые строки.

Из документации не ясно, как быть верным разрывам визуальных строк в PDF.

Пример ввода PDF - https://fountain.io/_downloads/Brick%20&%20Steel.pdf см. Пустую строку между «Авторы» и «Stu Maschwitz».

Я хочу преобразовать PDF в текст и оставить пустую строку, например

Written by

Stu Maschwitz

, а не:

Written by
Stu Maschwitz

Пример кода, который я использую:

const fs = require('fs');
const pdf = require('pdf-parse');

let PDF_FILE = 'brick.pdf';
let dataBuffer = fs.readFileSync(`${PDF_FILE}`);

pdf(dataBuffer, {normalizeWhitespace: false}).then(function(data) {

    // number of pages
    console.log(data.numpages);
    // number of rendered pages
    console.log(data.numrender);
    // PDF info
    console.log(data.info);
    // PDF metadata
    console.log(data.metadata);
    // PDF.js version
    // check https://mozilla.github.io/pdf.js/getting_started/
    console.log(data.version);
    // PDF text
    console.log(data.text);

});

параметры normalizeWhitespace как true или false не имеют значения.

Использование pdf-разбора и достоверного рендера пустой строки при выводе текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Использование pdf-разбора и достоверного рендера пустой строки при выводе текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов