У меня есть такой PDF-файл: ![pdf](https://i.stack.imgur.com/pDJLJ.png)
I am using pdf2 json для извлечения текста. Результат будет примерно таким:
`QUANT
ITY
ITEM CODEDESCRIPTIONUNIT PRICE
(inc-GST)
DISC %TOTAL PRICE(inc-GST)
0.2SPISALT1TATA SALT 1 KG *25 PC$20.00$4.00
----------------Page (0) Break----------------
"`
Но, используя это, я не могу найти, какой текст принадлежит какому столбцу в таблице PDF. Как извлечь текст в правильном формате
Код для извлечения с использованием библиотеки:
let pdfParser = new PDFParser(this, 1);
pdfParser.loadPDF('./uploads/filename.pdf');
pdfParser.on('pdfParser_dataError', errData => console.error(errData.parserError));
pdfParser.on('pdfParser_dataReady', pdfData => {
const raw = pdfParser.getRawTextContent();
fs.writeFile('./uploads/fields.json', raw, function() {
console.log('written?');
});
res.json({ raw });