Как получить ссылку на ссылку в этом теге? - PullRequest
0 голосов
/ 25 января 2020

Я успешно получаю ссылку href из http://quotes.toscrape.com/ примера путем реализации:

response.css('div.quote > span > a::attr(href)').extract()

, и он дает все частичные ссылки внутри href каждого тега:

['/author/Albert-Einstein', '/author/J-K-Rowling', '/author/Albert-Einstein', '/author/Jane-Austen', '/author/Marilyn-Monroe', '/author/Albert-Einstein', '/author/Andre-Gide', '/author/Thomas-A-Edison', '/author/Eleanor-Roosevelt', '/author/Steve-Martin']

кстати, в приведенном выше примере каждый тег имеет следующий формат:

<a href="/author/Albert-Einstein">(about)</a>

Поэтому я попытался сделать то же самое для этого сайта: http://www.thegoodscentscompany.com/allproc-1.html Проблема в том, что стиль тега немного отличается как таковой:

<a href="#" onclick="openMainWindow('http://www.thegoodscentscompany.com/data/rw1247381.html');return false;">formaldehyde</a>

Как вы видите, я не могу получить ссылку из href, используя аналогичный метод выше. Я хочу получить ссылку (http://www.thegoodscentscompany.com/data/rw1247381.html) из этого тега, но я не смог сделать это. Как я могу получить эту ссылку?

1 Ответ

0 голосов
/ 25 января 2020

Попробуйте это response.css('a::attr(onclick)').re(r"Window\('(.*?)'\)")

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...