Это мой код для разбора pdf документа:
String str="";
try
{
PdfReader m_reader;
m_reader = new PdfReader("E:\\ERR1.pdf");
str=PdfTextExtractor.getTextFromPage(m_reader, 1);
} catch (IOException e) {
e.printStackTrace();
}
System.out.println(str);
С помощью этого кода я могу анализировать много PDF-документов, но я могу читать только китайский в моем PDF-документе, это неожиданно.
Я только что опубликовал документ на github , который содержит:
README.md
о содержании репозитория.
ERR1-modified.pdf
- это файл, который я могу читать и анализировать, в нем есть некоторые изменения.
ERR1.pdf
- файл, который я не могу разобрать, кроме китайского.