Я пытаюсь получить текстовый раздел на проанализированной HTML-странице. Текст начинается после шаблона («Элемент c»), который встречается на странице несколько раз (т. Е. Существует 3 «Элемента c»).
Когда я запускаю свой код, я анализирую только последнее вхождение, а мне нужен только первый.
Вот структура HTML первого вхождения и некоторый код, который я использовал, чтобы найти начало и конец текста:
<p>
<font style="display:inline;">Item c. Mike’s bike</font>
</p>...
a <- grep("^Item\\s{0,}c.\\s{0,}M", f.text, ignore.case = TRUE)
b <- grep("^Item\\s{0,}d.\\s{0,}Q", f.text, ignore.case = TRUE)
Я пытался с точным соответствием части слов, но это не всегда работает.
Можно ли использовать подсказку по индексированию / более общему совпадению?
Заранее спасибо
Отказ от ответственности: довольно новый с R:)