Сканирование изображений и их метаданных с помощью Nutch и индексировать их в Solr - PullRequest
0 голосов
/ 09 апреля 2019

Я хочу создать мини-поисковую систему на основе изображений, для которой я могу предоставить файл изображения, и он будет искать похожие изображения в solr. Я использую Nutch для сканирования и индексации данных в Solr. Я сделал изменения в Nutch Conf файлы, такие как -

  • Добавлено image/* в mimetype-filter.txt
  • Удалены расширения изображений из suffix-urlfilter.txt - чтобы не пропускать их

Я также добавил поля в solr schema.xml -

<field name="name" type="string" indexed="true" stored="true" />
<field name="iso" type="string" indexed="true" stored="true" multiValued="true" />
<field name="iso_string" type="string" indexed="true" stored="true" multiValued="true" />
<field name="aperture" type="double" indexed="true" stored="true" />
<field name="exposure" type="string" indexed="true" stored="true" />
<field name="exposure_time" type="double" indexed="true" stored="true" />
<field name="focal" type="string" indexed="true" stored="true" />
<field name="focal_35" type="string" indexed="true" stored="true" />
<dynamicField name="ignored_*" type="string" indexed="false" stored="false" multiValued="true" />

Но когда я сканирую, нет данных, которые индексируются в solr. Я не могу найти какую-либо документацию / учебник по этому вопросу. Я также просмотрел несколько постов по stackoverflow для сканирования изображений с использованием Nutch. Но я не нашел их полезными.

Может кто-нибудь, пожалуйста, направить меня в правильном направлении относительно того, как действовать? Заранее спасибо.

1 Ответ

0 голосов
/ 09 апреля 2019

Простого / короткого ответа на этот вопрос не существует, разбор изображений - сложная задача, даже без участия сканирующей части. Помимо того, что вы уже сделали, вам нужно сначала включить плагин parse-tika (parse-html работает только с документами HTML). Apache Tika может извлечь некоторые метаданные об изображениях.

Вам также необходимо включить плагин mimetype-filter (это не только редактирование файла конфигурации, но и включение в файл nutch-site.xml). После того, как эти настройки выполнены, вы должны попробовать инструмент bin/nutch parsechecker <URL>, чтобы протестировать URL-адрес, содержащий некоторые изображения, и посмотреть, сможете ли вы найти URL-адреса к изображениям в разделе Outlinks. Кроме того, проверьте запуск анализатора для URL-адреса изображения, чтобы увидеть, какие метаданные извлекает анализатор. После этого запустите инструмент bin/nutch indexchecker для обоих URL-адресов и проверьте, какие поля он будет индексировать в Solr, и соответственно создайте их в своей схеме. Помните, что Tika может извлекать разные метаданные для каждого формата.

...