Существует ли библиотека (или исполняемый файл), которая может распознавать PDF (обычно PDF, созданный путем сканирования бумаги) и вставлять распознанный текст обратно в PDF?Вероятно, как невидимый текст за отсканированными изображениями.
Предпочтительно с открытым исходным кодом.
(Цель: у меня есть огромная библиотека файлов PDF, проиндексированных Lucene. Для Lucene было бы намного проще найти то, чтоPDF-файлы актуальны, если PDF-файлы содержат текст.)