Question

Моя база данных сохраняет резюме как поле данных BLOB-объектов.Резюме могут быть Microsoft Word, PDF или изображения (.jpg и т. Д.). Как мы можем создать индекс Lucene из этих разнородных типов файлов, особенно файлов .jpg?Может ли Тика понимать отсканированные изображения?

hkn · Answer 1 · 13 мая 2019

При извлечении из изображений в Tesseract также можно выполнить цепочку через TesseractOCRParser, чтобы выполнить OCR для содержимого изображения.

Проверьте документацию Apache Tika на изображениях: https://tika.apache.org/1.20/formats.html#Image_formats

Как создать индекс Lucene, где документы сканируют изображения среди прочего?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как создать индекс Lucene, где документы сканируют изображения среди прочего?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы