Как разобрать текстовый раздел после второго появления шаблона? - PullRequest
0 голосов
/ 29 апреля 2019

Я пытаюсь получить текстовый раздел на проанализированной HTML-странице. Текст начинается после шаблона («Элемент c»), который встречается на странице несколько раз (т. Е. Существует 3 «Элемента c»).

Когда я запускаю свой код, я анализирую только последнее вхождение, а мне нужен только первый.

Вот структура HTML первого вхождения и некоторый код, который я использовал, чтобы найти начало и конец текста:

<p>
   <font style="display:inline;">Item c.&nbsp;&nbsp;Mike’s bike</font>
</p>...
a <- grep("^Item\\s{0,}c.\\s{0,}M", f.text, ignore.case = TRUE)
b <- grep("^Item\\s{0,}d.\\s{0,}Q", f.text, ignore.case = TRUE)

Я пытался с точным соответствием части слов, но это не всегда работает.

Можно ли использовать подсказку по индексированию / более общему совпадению?

Заранее спасибо

Отказ от ответственности: довольно новый с R:)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...