pdfparser - метаданные структуры документа - PullRequest
0 голосов
/ 25 ноября 2018

Я был бы признателен за быстрый указатель на выяснение структурной информации в файле PDF - что-то вроде H1, H2, H3 в Microsoft Word.Я догонял ориентированный на поток формат файла PDF и не знаком с оператором заголовка.Или есть ли такая концепция заголовка.Я планирую использовать эти функции заголовка, чтобы разбить PDF для индексации и поиска.Таким образом, я могу разбить файл PDF на несколько разделов для поиска.

В файле журнала я нашел следующее.Я предполагаю, что это начало страницы, но не уверен насчет их значимости.

2018-11-24 16:43:05 ОТЛАДКА PDFStreamEngine: 260 - обработка токена подпотока: PDFOperator {BT} 2018-11-24 16:43:15 ОТЛАДКА PDFStreamEngine: 260 - обработка токена подпотока: COSName {GS0} 2018-11-24 16:43:21 ОТЛАДКА PDFStreamEngine: 260 - обработка токена подпотока: PDFOperator {gs} 2018-11-24 16:43:27 ОТЛАДКА PDFStreamEngine: 260 - обработка токена подпотока: COSName {TT0} 2018-11-24 16:43:38 ОТЛАДКА PDFStreamEngine: 260 - обработка токена подпотока: COSInt {1} 2018-11-24 16:43:41 DEBUG PDFStreamEngine: 260 - обработка токена подпотока: PDFOperator {Tf} 2018-11-24 16:43:42 DEBUG PDFStreamEngine: 260 - обработка токена субпотока: COSFloat {0.0031} 2018-11-24 16:43:42 DEBUGPDFStreamEngine: 260 - обработка токена подпотока: PDFOperator {Tc} 2018-11-24 16:43:43 ОТЛАДКА PDFStreamEngine: 260 - обработка токена подпотока: COSFloat {-0.0038} 2018-11-24 16:43:43 ОТЛАДКА PDFStreamEngine: 260- обработка подпотока доken: PDFOperator {Tw} 2018-11-24 16:43:44 DEBUG PDFStreamEngine: 260 - обработка токена подпотока: COSFloat {9.96} 2018-11-24 16:43:44 DEBUG PDFStreamEngine: 260 - обработка токена подпотока: COSInt {0}

...