Я не могу правильно собрать данные из классов классов, которые я ищу.Я хочу создать список (или на самом деле, комбинированную строку) всего текста из всех этих классов span.
Классы, на которые я смотрю, встроены в другие классы, но из получаемого в настоящее время вывода видно, что мой код может определять количество вхождений класса и просто не извлекатьтекст.
<div class="author-group" id="author-group">
<a class="author size-m workspace-trigger" name="bau2" href="#!">
<span class="content">
<span class="text given-name">Jane</span>
<span class="text surname">Doe</span>
<span class="author-ref" id="baff1">
<sup>a</sup></span></span></a>
Они все под своим, как показано выше, и все они под одним и тем же.
Из этого я хотел бы иметь возможность получить Джейн Доу.Этот класс повторяется несколько раз, и конечная цель - получить «Джейн Доу; Сэм Смит; Джо Грегори».Это мой соответствующий код до сих пор.
doc <- read_html(x)
just_scripts <- html_nodes(doc, "script") %>% html_text()
sur_author = html_nodes(doc, xpath = '//span[@class="text surname"]/text()') %>%
html_attr('content')
given_author = html_nodes(doc, xpath = '//span[@class="text given-name"]/text()') %>%
html_attr('content')
Given_Author <- paste(given_author, collapse=" ; ")
Sur_Author <- paste(sur_author, collapse=" ; ")
За пределами этой функции у меня есть код, записывающий в электронную таблицу Excel, и я получаю результаты, подобные этим: NA;NA;NA
Кажется, что он способен определить, сколько авторов, и правильно создать пространство для каждого, но он не может извлечь фактический текст имен авторов в мой файл.