Xpath имеет дело с SPAN и SUP - PullRequest
       1

Xpath имеет дело с SPAN и SUP

0 голосов
/ 05 сентября 2018

Я пытаюсь записать праздничную таблицу в файл этого сайта: /// C: /Users/alexa/AppData/Local/Temp/tmptz9muzp9.html у меня есть заголовки и первый и третий столбцы, но 2-й столбец выглядит так:

<td>
<span>1<span>
<sup>er <sup>
<span> ...

когда я использую свой xpath: span_xpath = tree.xpath('//*[@id="main"]/article/div/table/tbody/tr/td/span/text()')

возвращает список, где sup 1 «er» отсутствует, и добавляет дополнительную строку с нежелательным кодом

   ['1',
 '\xa0janvier (lundi)',
 '1',
 '\xa0janvier (mardi)',
 '2 avril',
 '1',
 '\xa0mai (mardi)',
 '1',
 '\xa0mai (mercredi)',
 '10 mai (jeudi)',
 '21 mai',
 '23 juin (samedi)',
 '23 juin (dimanche)',
 '15 août (mercredi)',
 '1',
 '\xa0novembre (jeudi)',
 '1',
 '\xa0novembre (vendredi)',
 '25 décembre (mardi)',
 '25 décembre (mercredi)',
 '26 décembre (mercredi)']

Я хотел бы весь путь с пролетом и sup.

1 Ответ

0 голосов
/ 06 сентября 2018

Исходя из вопроса и комментария ОП, он должен иметь возможность слегка изменить запрос XPath, чтобы принять оба элемента span и sup:

q = "//*[@id="main"]/article/div/table/tbody/tr/td/*[self::span|self::sup]/text()"
span_xpath = tree.xpath(q)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...