ItextSharp только получает текст заголовка из моего PDF - PullRequest
0 голосов
/ 10 мая 2019

Я пытаюсь читать PDF-файлы из определенного источника с помощью ItextSharp 4.2.0 (из-за лицензии GPL), но я получаю только текст заголовка из моих PDF-файлов.

Я действительно новичок со структурой PDF, но я подозреваю, что это связано с закодированными потоками внутри: Когда я открываю свой PDF в текстовом редакторе, я вижу такие разметки:

<</Filter/FlateDecode/I 94/Length 84/S 55>>stream
[Gibberish text]
endstream
endobj
<</Filter/FlateDecode/Length 2592/N 3>>stream
endstream
endobj

мой код так прост:

PdfReader reader = new PdfReader(tb_filename.Text);
for (int page = 1; page <= reader.NumberOfPages; page++)
{
   var content = reader.GetPageContent(page);
   //do stuff depending on content
}

Я почти уверен, что данные, которые я пытаюсь получить, являются фактическим текстом, потому что я могу скопировать / вставить их из Adobe Reader в блокнот.

Чего мне здесь не хватает?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...