Я получаю трудную задачу для очистки элемента URL в Reddit
Я использовал response.xpath, но я не знаю, почему он получает только два элемента.Я также использую crawlera для запрета IP.Но моя настоящая забота - как получить предметы.
response.xpath
crawlera
Вот URL:
https://www.reddit.com/r/teslamotors/new/
Мой код:
response.xpath("//a[@class = 'b5szba-0 fMXvWW']/@href").getall()
Вывод:
['https://www.youtube.com/watch?v=xWPM9HkwLn4&feature=youtu.be', 'https://www.cbc.ca/news/canada/british-columbia/man-nearly-run-over-by-suv-as-boat-and-suv-sink-1.5139313']
Желаемый выводчтобы получить текст "HREF" из этого образца URL (красный с elipsis)
fox40.com/2019/0... i.imgur.com/OYWPxF... youtu.be/jQioNt... etc
Есть идеи, пожалуйста?