Я собираю данные с веб-сайта, который выглядит следующим образом:
<div class="content">
<blockquote>
<div>
Do not select this.
</div>
How do I select only this…
<br />
and this…
<br />
and this in a single node?
</blockquote>
</div>
Предположим, что подобный фрагмент появляется 20 раз на одной странице, и я хочу получить весь текст в <blockquote>
но игнорируйте все в дочерних узлах, таких как внутренние div
.
, поэтому я использую:
html %>%
html_nodes(xpath = "//*[@class='content']/blockquote/text()[normalize-space()]")
Однако это разделяет How do I select only this…
, and this…
, and this in a single node?
наотдельные элементы в структуре xml_nodeset
.
Что мне нужно сделать, чтобы по существу объединить все эти текстовые узлы в один и вернуть те же 20 элементов (или один, если у меня был только этот пример)?