Необходимо удалить теги в отфильтрованной проанализированной ссылке HTML - PullRequest
1 голос
/ 28 апреля 2020

После выбора одной необходимой ссылки из множества, необходимо дополнительно передать эту ссылку на DataFrame для извлечения чисел.

Мой код такой, как показано ниже:

response=requests.get(url)
soup=BeautifulSoup(response.content,"html.parser")
tags=soup.select_one(a[href*=mar]') *** Out of Jan, Feb and Mar links, the line filters for a link that has Mar in it.

Теперь я получаю "'a href =" http://someurl.xlsx "> March (12kb, Excel)"'

Мне нужно только "http://someurl.xlsx", чтобы перейти к DataFrame для чтения содержимое страницы Excel.

1 Ответ

3 голосов
/ 29 апреля 2020

Попробуйте следующее

from bs4 import BeautifulSoup

html = '<a href="http://someurl.xlsx">March (12kb, Excel)</a>'

soup = BeautifulSoup(html, features="lxml")

tags = soup.select('a')[0].get('href')
print(tags)

http://someurl.xlsx
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...