Question

Я пытаюсь получить текстовый раздел на проанализированной HTML-странице. Текст начинается после шаблона («Элемент c»), который встречается на странице несколько раз (т. Е. Существует 3 «Элемента c»).

Когда я запускаю свой код, я анализирую только последнее вхождение, а мне нужен только первый.

Вот структура HTML первого вхождения и некоторый код, который я использовал, чтобы найти начало и конец текста:

<p>
   <font style="display:inline;">Item c.&nbsp;&nbsp;Mike’s bike</font>
</p>...

a <- grep("^Item\\s{0,}c.\\s{0,}M", f.text, ignore.case = TRUE)
b <- grep("^Item\\s{0,}d.\\s{0,}Q", f.text, ignore.case = TRUE)

Я пытался с точным соответствием части слов, но это не всегда работает.

Можно ли использовать подсказку по индексированию / более общему совпадению?

Заранее спасибо

Отказ от ответственности: довольно новый с R:)

Как разобрать текстовый раздел после второго появления шаблона?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как разобрать текстовый раздел после второго появления шаблона?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов