вы можете использовать PDF-текст для PDF-файлов. он извлечет текст из pdf в массив текстовых «кусков». Полезно для нечеткого анализа структурированного pdf-текста.
var pdfText = require('pdf-text')
var pathToPdf = __dirname + "/info.pdf"
pdfText(pathToPdf, function(err, chunks) {
//chunks is an array of strings
//loosely corresponding to text objects within the pdf
//for a more concrete example, view the test file in this repo
})
var fs = require('fs')
var buffer = fs.readFileSync(pathToPdf)
pdfText(buffer, function(err, chunks) {
console.log(chunks)
})
для файлов docx вы можете использовать мамонт, он будет извлекать текст из файлов .docx.
var mammoth = require("mammoth");
mammoth.extractRawText({path: "./doc.docx"})
.then(function(result){
var text = result.value; // The raw text
console.log(text);
var messages = result.messages;
})
.done();
Надеюсь, это поможет.