Я не уверен, как описать проблему, поэтому я * go непосредственно приведу пример.
У меня есть HTML документ (html_doc
), который выглядит следующим образом:
<div class="main">
<h2>A</h2>
<div class="route">
X<br />
</div>
<div class="route">
Y<br />
</div>
</div>
<div class="main">
<h2>B</h2>
<div class="route">
Z<br />
</div>
</div>
Внутри каждого main
, кроме title
и route
, есть еще элементы, поэтому я ищу масштабируемое решение. Классы в main
всегда одинаковы.
Я хотел бы получить тиббл, похожий на:
id | title | route
1 | A | X
1 | A | Y
2 | B | Z
Моя текущая попытка выдает ошибку, потому что в title
есть другое количество строк и route
. Я также не знаю, как индексировать класс main
.
tibble(
title = html_doc %>% html_nodes("h2") %>% html_text(),
route = html_doc %>% html_nodes(".route") %>% html_text()
)