Извлечь данные таблицы из pdf - PullRequest
0 голосов
/ 02 августа 2020

У меня есть такой PDF-файл: pdf

I am using pdf2 json для извлечения текста. Результат будет примерно таким:

`QUANT
ITY
ITEM CODEDESCRIPTIONUNIT PRICE
(inc-GST)
DISC %TOTAL PRICE(inc-GST)
0.2SPISALT1TATA SALT 1 KG *25 PC$20.00$4.00
----------------Page (0) Break----------------
"`

Но, используя это, я не могу найти, какой текст принадлежит какому столбцу в таблице PDF. Как извлечь текст в правильном формате

Код для извлечения с использованием библиотеки:

    let pdfParser = new PDFParser(this, 1);
      pdfParser.loadPDF('./uploads/filename.pdf');
      pdfParser.on('pdfParser_dataError', errData => console.error(errData.parserError));
      pdfParser.on('pdfParser_dataReady', pdfData => {
    const raw = pdfParser.getRawTextContent();
    fs.writeFile('./uploads/fields.json', raw, function() {
      console.log('written?');
    });
    res.json({ raw });
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...