Получить спецификацию c href с веб-страницы - PullRequest
0 голосов
/ 10 марта 2020

Я пытаюсь получить определенные c URL-адреса с веб-сайта, чтобы сохранить их в массиве.

Проблема в том, что я не могу понять, как искать указанные c ссылки.

screen shot from the website and specific href that I'm looking for

Из всего этого сайта я хочу получить только href = / pubmed /...

Вот мой код до сих пор:

from bs4 import BeautifulSoup

url="https://www.ncbi.nlm.nih.gov/pubmed/?term=John+B.+Goodenough"
soup = BeautifulSoup(response.content, 'lxml')

for link in soup.find_all('a'):
        print(link.get('href'))

Но когда я запускаю приведенный выше код, я получаю все ссылки, а не только те, которые мне нужны.

1 Ответ

1 голос
/ 10 марта 2020

Попробуйте отфильтровать только ссылки с «опубликованной» подстрокой.

Попробуйте заменить значение для l oop следующим:

for link in soup.find_all('a'):
    if link.get('href').find("pubmed") > 0:
        print(link.get('href'))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...