R: rvest html_table () не захватывает заголовки - PullRequest
0 голосов
/ 13 апреля 2020

У меня есть страница с несколькими таблицами в качестве исходного файла, которую я копирую с rvest.

Она имеет теги thead и tbody. Проблема в том, что он, похоже, просто получает данные в tbody, но не получает данные в thead. Вместо этого имена столбцов выводятся как X1 и X2 (только два столбца).

структурировано так:

<thead>
   <th></th>
   <th>
     <img>
     <br>
   </th>
</thead>
<tbody>
   <tr>
      <td></td>
      <td></td>
   </tr>
   ... #time x rows
</tbody>

Я проверил источник и thead does on contain values

например:

xml_child(tables[[1]], 1) приводит к:

{html_node} <thead some_attr=""> [1] <th some_attr="">tableheadername1</th>\n [2] <th some_attr="">tableheadername2</th>

Я использую это для анализа html:

tables = html_nodes(doc, xpath = '//*[@id="somename"]' %>% html_table()

Я что-то упустил?

...