Отображение метаданных Tika Solr игнорирует заголовок документа - PullRequest
1 голос
/ 21 декабря 2011

У меня есть следующий файл конфигурации для solr:

  <requestHandler name="/update/extract" 
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <!-- All the main content goes into "text"... if you need to return
           the extracted text or do highlighting, use a stored field. -->
      <str name="lowernames">true</str>
      <str name="fmap.content">content</str>
      <str name="fmap.application_name">type</str>
      <str name="fmap.content_type">mime</str>
      <str name="fmap.stream_size">size</str>
      <str name="uprefix">ignored_</str>
      <str name="captureAttr">false</str>
    </lst>
  </requestHandler>

, и это моя схема:

   <field name="id" type="string" indexed="true" stored="true" required="true" /> 
   <field name="access_type" type="string" indexed="true" stored="false"/>
   <field name="access_restriction" type="string" indexed="true" stored="false" multiValued="true"/>
   <field name="title" type="string" indexed="true" stored="true" multiValued="true" />
   <field name="tags" type="string" indexed="true" stored="true" multiValued="true"/>
   <field name="content" type="text_en_splitting" indexed="true" stored="true"/>
   <field name="created" type="date" indexed="true" stored="true"/>
   <field name="createdby" type="string" indexed="true" stored="true"/>
   <field name="modified" type="date" indexed="true" stored="true"/>
   <field name="modifiedby" type="string" indexed="true" stored="true"/>
   <field name="source" type="string" indexed="true" stored="true" />
   <field name="version" type="string" indexed="true" stored="true" />
   <field name="resourcelink" type="string" indexed="true" stored="true" />
   <field name="downloadlink" type="string" indexed="true" stored="true" />

   <field name="type" type="string" indexed="true" stored="true" />
   <field name="mime" type="string" indexed="true" stored="true" />
   <field name="size" type="string" indexed="true" stored="true" />

Я хочу установить title самостоятельно.Но Тика продолжает устанавливать свои собственные title (поэтому я временно установил multiValued="true"), что я нахожу странным, потому что мне приходится вручную отображать такие вещи, как stream_size и content_type.

Какое решение возможнок этой проблеме?

Я бы хотел, чтобы Тика переопределил title, который я назначил, вот так:

У меня есть 3 документа, для одного из которых Тика не извлекает title, в этом случае у меня есть свой собственный заголовок, который я передаю, передавая literal.title, когда Тика извлекает title, я хочу переопределить тот, который я передал в literal.title.Это возможно?

Ответы [ 2 ]

1 голос
/ 26 декабря 2011

Я работал над той же проблемой некоторое время назад, но я также ударил стену :( Я позволил Тике взять "title" и использовать literal.other_title_like_field для хранения правильного заголовка. Это не лучшее решение, но сработалодля меня.

0 голосов
/ 19 мая 2017

Для тех, кто все еще борется с этой проблемой, я решил ее, добавив

<str name="fmap.title">ignored_</str>

в мои значения по умолчанию для ExtractingRequestHandler.

...