Я использую библиотеки pag patagames (Patagems.pdf.dll и Patagems.pdf.WinForms.dll) в нашем приложении для извлечения текста из pdf. Ниже приведен синтаксис для извлечения текста на основе координат.
pdfViewer.CurrentPage.Text.GetBoundedText (1313.167, 1314.21, 1169.779, 1344.215);
Извлеченный текст с использованием вышеуказанного синтаксиса дает текст в виде перемешано:
Несбеленная обогащенная мука, сахаросодержащие ингредиенты: ТИАМИН, СОКРАЩЕННЫЙ ЖЕЛЕЗ, НИАЦИН, T МУЛА A MONONITR КАКАО рапсового масло УАП косточковое масло Р И УАП PACID)
Первоначальный текст: Состав: сахар, НЕБЕЛЕНАЯ обогащенная мука (пшеничная мука, ниацин, восстановленное железо, мононитрат тиамина {ВИТАМИН В1}, рибофлавин {витамин В2}, Фолиевая кислота), PALMAND PALM KERNEL OIL, CANOLA OIL, COCOA
Пожалуйста, поддержите меня здесь, чтобы решить проблему с беспорядочным текстом.