Моя проблема:
У меня есть PDF-файл со множеством римских символов со сложными диакритическими знаками (например, ṣ, ś, ṝ, ǎ и т. Д.). Чтобы упростить поиск в pdf, я хотел бы добавить дополнительный слой, почти как в случае с hocr, где тот же текст присутствует без диакритических знаков.
При использовании полнотекстовых поисковых систем я могу индексировать несколько терминов в одной и той же позиции (в векторе) - здесь я хотел бы добиться того же эффекта.
Я много читал о добавлении слоя hocr к отсканированным изображениям, но я действительно хочу дублировать текстовый слой, передать его через скрипт, который удаляет диакритические знаки (достаточно просто), а затем добавляет его обратно как скрытый слой с возможностью поиска.
У кого-нибудь есть предложения? (Решения с участием любой платформы, языка, библиотеки или набора инструментов будут полезны!)
Спасибо:)
Редактировать: пожалуйста, дайте мне знать, если вопрос неясен.