При использовании xpath в Scrapy Shell для выбора адресов электронной почты из определенного тега <p>
на веб-странице xpath возвращает все ссылки <a>
в этом конкретном абзаце.В связи с этим я попытался использовать функцию старт-с для дальнейшего уточнения возвращаемой информации, что успешно, но обрезает концы адресов электронной почты.
hxs.select('//*[@id="rightCol02"]/p/a[starts-with(@href,"mailto")]')
Выше приведены неполные адреса электронной почты.
При запуске hxs.select без функции запуска с начала я заметил следующее:
hxs.select('//*[@id="xxxxxxx"]/p/a')
- (Возвращает все ссылки с обрезанными концами URL-адресов и адресов электронной почты.)
hxs.select('//*[@id="xxxxxxx"]/p/a/@href')
- (Возвращает полный адрес электронной почты и URL-адрес.)
Вопрос в том, как начать работу с захватом всего адреса электронной почты?
Я пыталсяследующее, но я не уверен, какой синтаксис должен быть:
hxs.select('//*[@id="xxxxxxxx"]/p/a/@href[starts-with("mailto:")]')