pandas read_html объединение данных разделенной таблицы - PullRequest
0 голосов
/ 21 сентября 2019

У меня проблема - я пытаюсь импортировать данные из таблицы в файл HTML, используя операцию pandas read_html.

В приведенном ниже примере я могу успешно импортировать таблицу, но каждая ячейкаобъединяет три элемента данных в каждой ячейке.У меня нет возможности изменить способ построения HTML.

Например, первая ячейка, содержащая данные, загружается как «3.29.02.3».Как я могу гарантировать, что данные разделены, когда они считываются?Я бы взял список [3.2, 9.0, 2.3], строку с каким-то разделителем, или как отдельные столбцы, или другой метод - я не суетливый.

Я думаю, что я должен быть в состоянии передать некоторыепоэтому укажите, как интерпретируется HTML-код, в соответствии с документами read_html , но вам нужно несколько советов о том, как действовать - эта область для меня совершенно новая.

Большое спасибо!

BW.

Образец HTML:

<tr class="property-c4da88">
   <td class="property-label">
      <a href="/url/page.php" class="property-name">Row Title</a>
      <div class="max-cell">max</div>
      <div class="min-cell">min</div>
   </td>
   <td class="center">
      3.2
      <div class="max-cell">9.0</div>
      <div class="min-cell">2.3</div>
   </td>
   <td class="center">
      1.2
      <div class="max-cell">1.5</div>
      <div class="min-cell">0.9</div>
   </td>

   <!-- LOTS MORE COLUMNS HERE -->

   <td class="center">
      12.2
      <div class="max-cell">13.6</div>
      <div class="min-cell">8.7</div>
   </td>
</tr>

Фрагмент Python:

response = requests.get(url, params=params)
df = pd.io.html.read_html(response.text, attrs={'id': 'data'})[0]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...