Я использую itextsharp на vb.net, чтобы получить текстовое содержимое из PDF-файла. Решение отлично работает для некоторых файлов, но не для других, даже довольно простых. Проблема в том, что значение строки токена имеет значение null (набор пустых квадратных ячеек)
token = New iTextSharp.text.pdf.PRTokeniser(pageBytes)
While token.NextToken()
tknType = token.TokenType()
tknValue = token.StringValue
Я могу измерить длину содержимого, но не могу получить фактическое содержимое строки.
Я понял, что это происходит в зависимости от шрифта PDF. Если я создаю PDF с использованием Acrobat или PdfCreator с Courier (это, кстати, шрифт по умолчанию в моем редакторе Visual Studio), я могу получить весь текстовый контент. Если тот же PDF-файл построен с использованием другого шрифта, я получаю пустые квадратные поля.
Теперь вопрос в том, как извлечь текст независимо от настроек шрифта?
Спасибо