Как извлечь информацию тега <h2> из файла html при индексации в Solr - PullRequest
0 голосов
/ 12 октября 2018

Я хочу извлечь информацию тега <h2> из файла html при индексации их в Solr.

Например: в файле test.htm у меня есть содержимое типа <h2>This is for test</h2>

Iнужно извлечь This is for test в индекс h2.

Я обнаружил, что в файле conf / managed-schema уже определено поле 'h1', которое извлекает информацию из тега <h1> из html, который работает нормально.

Определено как: <field name="h1" type="text_general" indexed="true" stored="true"/>

Итак, я хочу сделать то же самое для тега <h2>, который не работает.

Я пытался: <field name="h2" type="text_general" indexed="true" stored="true"/>

Я индексирую файл test.htm, выполнив команду: /var/www/html/solr-5.3.1/bin/post -p 9000 -c Core -filetypes htm,html /var/www/html/test/Core/test.htm

Я застрял с этим ... Кто-нибудь может мне помочь?

1 Ответ

0 голосов
/ 02 ноября 2018

Наконец, после большого количества исследований и разработок, я получаю решение: -).

Я добавил <str name="capture">h2</str> <str name="fmap.h2">h2</str> в solrconfig.xml, и он начал работать.

Итак, мой последний solrconfig.xml выглядит так:

<requestHandler name="/update/extract"
              startup="lazy"
              class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
        <str name="lowernames">true</str>
        <str name="fmap.meta">ignored_</str>
        <str name="fmap.content">_text_</str>
        <str name="capture">h1</str>
        <str name="fmap.h1">h1</str>
        <str name="capture">h2</str>
        <str name="fmap.h2">h2</str>        
        <str name="captureAttr">true</str>
    </lst>
</requestHandler>

Вот и все: -)

Возможно, в будущем какой-то другой пользователь может столкнуться с той же проблемой, поэтому я публикую это как ответ.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...