Apache PDF box - Читать PDF со шрифтом "Monotype Sans Duospace WT" - PullRequest
0 голосов
/ 01 марта 2019

Я читаю PDF-файл в Apache PDF Box, используя следующий код:

PDDocument doc = PDDocument.load(file);
PDDocumentCatalog catalog = doc.getDocumentCatalog();
PDPage page = (PDPage) catalog.getPages().get(0);
doc.addPage(page);

PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.setSortByPosition(false);
PDFTextStripper tStripper = new PDFTextStripper();
String pdfFileInText = tStripper.getText(doc);            
String pdfText[] = pdfFileInText.split(System.lineSeparator());            
System.out.println(pdfFileInText);            
doc.close();

Я успешно прочитал много PDF-файлов, используя этот код.Однако с последним файлом PDF, который я должен был прочитать, это не извлекает правильные текстовые данные и выдает предупреждение ниже.

org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode ПРЕДУПРЕЖДЕНИЕ:Нет сопоставления Unicode для CID + Num (Num) в шрифте 1E23f0MonotypeSansDuospaceWT

Где «Num» - целое число.Кто-нибудь знает, как решить эту проблему, чтобы я мог читать этот PDF-файл в текст Unicode без каких-либо проблем?PDF-файл написан шрифтом "Monotype Sans Duospace WT".Любая помощь очень ценится.

...