Я хочу распознавать таблицы в файлах PDF. Какой SDK используется в C # для распознавания таблиц внутри pdf и какой-то механизм для чтения по ячейкам, может ли кто-нибудь предложить?
Таблицы не существуют внутри PDF как структуры, если только он не был создан как помеченный контент с дополнительными тегами. Я написал сообщение в блоге, объясняющее некоторые проблемы с извлечением текста из файлов PDF, по адресу http://www.jpedal.org/PDFblog/2009/04/pdf-text/
PDF Sharp - это хорошо и бесплатно.Я никогда не делал этого по-особенному, но он соотносится со всеми основными объектами в формате PDF.