Успех! Мне пришлось установить / использовать следующие инструменты:
npm install html-pdf-chrome --save-dev
npm install pdfreader --save-dev
html-pdf-chrome используется для магического вызова Chrome для преобразования некоторого заданного HTML в PDF способом, который Chrome обычно использует для печати. pdfreader - это пакет, который читает указанный PDF, а затем предоставляет текст внутри него.
После перехода на страницу, которую я хочу распечатать с помощью веб-драйвера, я могу позвонить:
this.When(/^I print the page to a PDF named "([^"]*)"$/,
async function(outputFilename) {
console.log("Getting the html...");
let sourceHTML = await browser.getSource();
console.log("Printing the html using Chrome...");
let pdf = await HtmlPdf.create(sourceHTML);
console.log("Saving the PDF to " + outputFilename + "...");
await pdf.toFile(path.join(DEFAULT_PRINT_PATH, outputFilename));
});
Затем, чтобы получить текст в PDF, я вызываю эту функцию:
function readPdfText(filename) {
return new Promise((resolve, reject) => {
let pdfText = "";
new pdfReader.PdfReader().parseFileItems(path.join(DEFAULT_PRINT_PATH, filename), function(err, item){
if (err){
console.log("Error received on parsing PDF: " + err, err.stack);
reject(err);
}
else if (!item) {
resolve(pdfText);
}
else if (item.text) {
if(item.text.trim() === ":") {
pdfText += item.text;
} else {
pdfText += "\n" + item.text;
}
}
});
});
}