Как удалить xpath из вывода extract_first ()? - PullRequest
1 голос
/ 18 февраля 2020

Я новичок в Python, поэтому заранее извиняюсь за любой идиотизм.

Я собираю информацию с веб-сайта и извлекаю элементы с помощью .extract_first ().

Я хотел, чтобы вывод был просто текст элемента, ie 'Боб Смит'. Но вместо этого кажется, что xpath печатается вокруг имени:

Соответствующий код:

sel = Selector(text=driver.page_source)
name = sel.xpath('//li[@class="inline t-24 t-black t-normal break-words"]').extract_first()
if name:
     name = name.strip() 
print(name)

Вывод:

'<li class="inline t-24 t-black t-normal break-words">\n            Bob Smith\n          </li>'

Я пытался найти решение в Интернете, но не нашел решения, которое решает эту проблему в контексте extract_first (). Как избавиться от xpath, чтобы выводимый вывод был просто текстом элемента? Спасибо.

1 Ответ

0 голосов
/ 18 февраля 2020

Попробуйте использовать

name = sel.xpath('normalize-space(//li[@class="inline t-24 t-black t-normal break-words"])').extract_first()

Мой вывод из html в вашем вопросе:

Боб Смит

...