Drupal 7 - индексирование / поиск PDF OCR изображений - PullRequest
0 голосов
/ 02 октября 2018

Я добавил модуль Search API Attachments и все его зависимости, а также попробовал использовать Search File Attachments.

Работает индексирование и поиск обычных PDF-файлов (например, тех, которые были созданы в Microsoft Word, а затем сохранены как PDF).штраф;однако, если PDF является изображением, хотя это было OCR, я не получаю никакого результата, когда я запускаю поиск.Если я дважды щелкну по документу и открою PDF, сделаю "CTRL + F", чтобы найти в нем какое-то содержимое, и тогда я получу результаты.Итак, я могу подтвердить, что изображение было OCR и его содержание доступно для поиска.Итак, мой вопрос : есть ли способ проиндексировать и найти pdf-файл с изображением OCR в Drupal 7?

Кроме того, я не уверен, что что-то упустил, но я, похоже, не могу найти способ поиска по одному и тому же содержимому pdf и полям узлов;У меня есть две вкладки для поиска: одна - «Контент», а вторая - «Файлы». Второй вопрос : есть ли способ поиска всего в одном окне поиска?

Спасибо, Лора

===== update ===============================================

после многих попыток и ошибок я смогнастроить поиск по умолчанию и поиск Solr.Ни с одним из них я не могу выполнить то, что ищу.Поиск по умолчанию (API поиска) делает хорошую работу, извлекая отрывок и выделяя искомое слово / слова.

Окно поиска по умолчанию (нажмите, чтобы увидеть изображение)

Тем не менее, он не находит никакого результата, когда файл PDF представляет собой изображения текста OCR.

С другой стороны, поиск Solr находит текст на изображениях OCR, но не показывает какой-либо текстовый отрывок (хотя янастроили его для отображения) Поиск Solr (нажмите, чтобы увидеть изображение)

Настройки вложения файла (нажмите, чтобы увидеть изображение)

Выбранная настройка выдержки (нажмите, чтобы увидеть изображение)

Буду очень признателен за любую помощь / руководство по решению этой проблемы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...