Желаю всем мирного Нового Года !!
Я очень новичок в чтении содержимого PDF с изображениями, текстом и таблицей. Я просмотрел много сайтов и использовал iTextSharp (TextWithFontExtractionStategy) для чтения и преобразования контента в HTML, а я делал только с текстом. Я искал предложения на многих сайтах, но не смог найти решение.
Теперь, чего я хочу добиться, так это того, что я хотел бы читать контент из PDF, содержащий текстовые изображения и таблицу, и конвертировать его в HTML. Я узнал, что трудно идентифицировать изображение и таблицу.
для изображения -
Я не хочу извлекать изображение из PDF, так как собираюсь оставить какой-нибудь заполнитель для изображения, чтобы я мог дать альтернативный текст. Можно ли идентифицировать изображение при чтении содержимого PDF, если оно есть? Потому что iTextShrp (TextWithFontExtractionStategy) пропускает изображение и читает следующий элемент.
для таблицы -
Я хочу прочитать таблицу о том, как она присутствует в PDF.
Все эти преобразования должны быть приведены в одном результате.
Если кто-нибудь поможет мне, это будет с благодарностью !!.
Заранее большое спасибо !!