Я пытаюсь читать PDF-файлы из определенного источника с помощью ItextSharp 4.2.0 (из-за лицензии GPL), но я получаю только текст заголовка из моих PDF-файлов.
Я действительно новичок со структурой PDF, но я подозреваю, что это связано с закодированными потоками внутри:
Когда я открываю свой PDF в текстовом редакторе, я вижу такие разметки:
<</Filter/FlateDecode/I 94/Length 84/S 55>>stream
[Gibberish text]
endstream
endobj
<</Filter/FlateDecode/Length 2592/N 3>>stream
endstream
endobj
мой код так прост:
PdfReader reader = new PdfReader(tb_filename.Text);
for (int page = 1; page <= reader.NumberOfPages; page++)
{
var content = reader.GetPageContent(page);
//do stuff depending on content
}
Я почти уверен, что данные, которые я пытаюсь получить, являются фактическим текстом, потому что я могу скопировать / вставить их из Adobe Reader в блокнот.
Чего мне здесь не хватает?