Как создать индекс Lucene, где документы сканируют изображения среди прочего? - PullRequest
0 голосов
/ 13 мая 2019

Моя база данных сохраняет резюме как поле данных BLOB-объектов.Резюме могут быть Microsoft Word, PDF или изображения (.jpg и т. Д.). Как мы можем создать индекс Lucene из этих разнородных типов файлов, особенно файлов .jpg?Может ли Тика понимать отсканированные изображения?

1 Ответ

1 голос
/ 13 мая 2019

При извлечении из изображений в Tesseract также можно выполнить цепочку через TesseractOCRParser, чтобы выполнить OCR для содержимого изображения.

Проверьте документацию Apache Tika на изображениях: https://tika.apache.org/1.20/formats.html#Image_formats

...