Извлечение текста не применяется - PullRequest
0 голосов
/ 06 февраля 2019

Работа на ливневом гусеничном ходу 1.13 и упругий поиск 6.5.2.При извлечении текста я применяю тег MAIN , который поддерживает основное содержание моей веб-страницы.К сожалению, когда я добавляю только MAIN , это захватывает весь контент веб-страницы, включая заголовки.

Не сработало должным образом:

 textextractor.include.pattern:
  - MAIN[role="main"]

Но если я добавлю дополнительные теги под MAIN , то получится фактическое содержание, которое я ожидал.

Работает:

  textextractor.include.pattern:
   - MAIN[role="main"]
   - DIV[id="content--primary"]
   - DIV[id="content--secondary"]

Любое решение для этого, если я хочу получить весь контент между MAIN тегами.У меня есть много сайтов, на которых класс и идентификатор DIV меняются и немного усложняют упоминание каждого тега и одного общего на всех сайтах, что на каждой странице теги MAIN содержат фактическиесодержание.

Спасибо заранее.

Обновлено: изменения файла в репо

1 Ответ

0 голосов
/ 07 февраля 2019

В опубликованных вами файлах содержатся недопустимые элементы:

<main rolle="main class>

и

<main role="main class="mobile-menu-fixed">

Нельзя ожидать совпадения шаблона, если имя атрибута написано с ошибкой и / или двойные кавычкиотсутствуют.

...