Я хочу извлечь информацию тега <h2>
из файла html при индексации их в Solr.
Например: в файле test.htm у меня есть содержимое типа <h2>This is for test</h2>
Iнужно извлечь This is for test
в индекс h2.
Я обнаружил, что в файле conf / managed-schema уже определено поле 'h1', которое извлекает информацию из тега <h1>
из html, который работает нормально.
Определено как: <field name="h1" type="text_general" indexed="true" stored="true"/>
Итак, я хочу сделать то же самое для тега <h2>
, который не работает.
Я пытался: <field name="h2" type="text_general" indexed="true" stored="true"/>
Я индексирую файл test.htm, выполнив команду: /var/www/html/solr-5.3.1/bin/post -p 9000 -c Core -filetypes htm,html /var/www/html/test/Core/test.htm
Я застрял с этим ... Кто-нибудь может мне помочь?