html_nodes для удаления текста с R - PullRequest
0 голосов
/ 21 марта 2019

На самом деле я пытаюсь получить номер sku этого кода (этот номер -> 111653240199):

<body>
 <div id= ‘a page’>
   <div class =”spaui-squishy-container” style=”display:table:table-row;”>
    <div class =”spaui-squishy-inner-container” style=”display:table-row;”>
     <div class =”spaui-squishy-content” style=display:table-cell;”>
      <div id=”myi-table-center” class=”a-container Madagascar-main-body”>
       <div id=”miytable” class=”mt-container clearfix””>
        <div class="mt-content clearfix">
         ::before
          <div class="mt-content clearfix">
           ::before
            <table class="a-bordered a-horizontal-stripes  mt-table">
             <tbody>
               <tr id="head-row" class="mt-head">
               <tr id="MTExNjUzMjQwMTk5" data-delayed-dependency-data="{&quot;MYIService&quot;(…)
                <td id= MTExNjUzMjQwMTk5-sku” data-colum=”sku” data-row=” MTExNjUzMjQwMTk5”>
                 <div class="mt-combination mt-layout-block">
                  <div id="MTExNjUzMjQwMTk5-sku-sku" data-column="sku" data-row="ExNjUzMjQwMTk5">
                   <div class="clamped wordbreak">
                    <div class="mt-text mt-wrap-bw"> 
                     <span class="mt-text-content mt-table-main">
                      111653240199
                     </span>

Мой скрипт в R имеет следующее:

  dades<-read_html(url)

  id<-dades %>% html_nodes("#mt-table-container.clearfix .mt-link.mt-wrap-bw.clamped.wordbreak a") %>% html_text()

Но результат -> символ пуст

Что я делаю не так?

Заранее спасибо за помощь и ваше время: -)

1 Ответ

0 голосов
/ 21 марта 2019

В одну сторону со следующим:

library(rvest)
read_html(text) %>%
  html_nodes('div.mt-text') %>%
  html_text() %>%
  #the following removes whitespaces
  trimws()

  #[1] "111653240199"
...