При просмотре PDF будет время, когда между текстовыми блоками будет пустая строка.
Если я использую pdf-parse , чтобы прочитать файл PDF и преобразовать в текстовый выводпо умолчанию простой пример кода теряет пустые строки.
Из документации не ясно, как быть верным разрывам визуальных строк в PDF.
Пример ввода PDF - https://fountain.io/_downloads/Brick%20&%20Steel.pdf см. Пустую строку между «Авторы» и «Stu Maschwitz».
Я хочу преобразовать PDF в текст и оставить пустую строку, например
Written by
Stu Maschwitz
, а не:
Written by
Stu Maschwitz
Пример кода, который я использую:
const fs = require('fs');
const pdf = require('pdf-parse');
let PDF_FILE = 'brick.pdf';
let dataBuffer = fs.readFileSync(`${PDF_FILE}`);
pdf(dataBuffer, {normalizeWhitespace: false}).then(function(data) {
// number of pages
console.log(data.numpages);
// number of rendered pages
console.log(data.numrender);
// PDF info
console.log(data.info);
// PDF metadata
console.log(data.metadata);
// PDF.js version
// check https://mozilla.github.io/pdf.js/getting_started/
console.log(data.version);
// PDF text
console.log(data.text);
});
параметры normalizeWhitespace как true или false не имеют значения.