Если формат таблицы предсказуемый, а PDF хорошего качества, то вы можете конвертировать страницы PDF в .tiff
файлы с 300 density
и 8 depth
, используя ImageMagick . Затем вы можете обрезать текстовую часть, которую вы хотите OCR.
Другой вариант - удалить саму таблицу с изображения и оставить только текст. Я сделал это один раз, но он работал хуже, чем первый вариант.