PDF2Dom (на основе библиотеки PDFBox) способен конвертировать PDF-файлы в формат HTML, сохраняя такие характеристики, как размер шрифта, жирность и т. Д. Пример этого разговора показан ниже:
private void generateHTMLFromPDF(String filename) {
PDDocument pdf = PDDocument.load(new File(filename));
Writer output = new PrintWriter("src/output/pdf.html", "utf-8");
new PDFDomTree().writeText(pdf, output);
output.close();}
Я пытаюсь проанализировать существующий PDF-файл и извлечь эти характеристики построчно, и мне интересно, существуют ли какие-либо существующие методы в PDF2Dom / PDFBox, анализирующие их прямо из PDF-файла?
Другим методом было бы просто использовать вывод HTML и продолжать оттуда, но это кажется ненужным обходным путем.