Как написать метод handle_starttag для извлечения ссылок? - PullRequest
0 голосов
/ 23 апреля 2019

В настоящее время я работаю с веб-шабером для очистки определенных заданий / проектов, которые соответствуют набору ключевых слов. Я был в состоянии извлечь все хорошо, за исключением ссылок. Пример тега выглядит так -

'<a href="/at.gv.bmdw.eproc-p/public/de_AT/tenderlist?action=view&amp;object=a2c49245-23b2-46e1-acc7-c5a78913a090-6908b324-963d-49ba-8cff-305625a8775e">1190 Wien, Peter-Jordan-Straße 82/Borkowskigasse 2, Universität für Bodenkultur, Holzneubau Türkenschanze - Aufzug</a>'

Как мне получить только ссылку?

def handle_starttag(self, tag, attrs):
    self.links = []
    if tag == "td" or tag == "a":
        attrs = dict(attrs)
    if tag == "a" and attrs.get("class", "") == "even":
        self.links.append(attrs['href'])
    elif tag == "a" and attrs.get("class", "") == "odd":
        self.links.append(attrs['href'])

Это код, который у меня есть, однако он не работает должным образом. Вот запрос сайтов Ajax, который я пытаюсь продублировать - https://ausschreibungen.usp.gv.at/at.gv.bmdw.eproc-p/ajax/dataTablesTenderList

...