Функция xpath запускается с не возврата всей необходимой информации - PullRequest
0 голосов
/ 27 января 2012

При использовании xpath в Scrapy Shell для выбора адресов электронной почты из определенного тега <p> на веб-странице xpath возвращает все ссылки <a> в этом конкретном абзаце.В связи с этим я попытался использовать функцию старт-с для дальнейшего уточнения возвращаемой информации, что успешно, но обрезает концы адресов электронной почты.

hxs.select('//*[@id="rightCol02"]/p/a[starts-with(@href,"mailto")]')

Выше приведены неполные адреса электронной почты.

При запуске hxs.select без функции запуска с начала я заметил следующее:

hxs.select('//*[@id="xxxxxxx"]/p/a') - (Возвращает все ссылки с обрезанными концами URL-адресов и адресов электронной почты.)

hxs.select('//*[@id="xxxxxxx"]/p/a/@href') - (Возвращает полный адрес электронной почты и URL-адрес.)

Вопрос в том, как начать работу с захватом всего адреса электронной почты?

Я пыталсяследующее, но я не уверен, какой синтаксис должен быть:

hxs.select('//*[@id="xxxxxxxx"]/p/a/@href[starts-with("mailto:")]')
...