Работа на ливневом гусеничном ходу 1.13 и упругий поиск 6.5.2.При извлечении текста я применяю тег MAIN , который поддерживает основное содержание моей веб-страницы.К сожалению, когда я добавляю только MAIN , это захватывает весь контент веб-страницы, включая заголовки.
Не сработало должным образом:
textextractor.include.pattern:
- MAIN[role="main"]
Но если я добавлю дополнительные теги под MAIN , то получится фактическое содержание, которое я ожидал.
Работает:
textextractor.include.pattern:
- MAIN[role="main"]
- DIV[id="content--primary"]
- DIV[id="content--secondary"]
Любое решение для этого, если я хочу получить весь контент между MAIN тегами.У меня есть много сайтов, на которых класс и идентификатор DIV меняются и немного усложняют упоминание каждого тега и одного общего на всех сайтах, что на каждой странице теги MAIN содержат фактическиесодержание.
Спасибо заранее.
Обновлено: изменения файла в репо