Question

Я пытаюсь получить определенные c URL-адреса с веб-сайта, чтобы сохранить их в массиве.

Проблема в том, что я не могу понять, как искать указанные c ссылки.

Из всего этого сайта я хочу получить только href = / pubmed /...

Вот мой код до сих пор:

from bs4 import BeautifulSoup

url="https://www.ncbi.nlm.nih.gov/pubmed/?term=John+B.+Goodenough"
soup = BeautifulSoup(response.content, 'lxml')

for link in soup.find_all('a'):
        print(link.get('href'))

Но когда я запускаю приведенный выше код, я получаю все ссылки, а не только те, которые мне нужны.

Jeff Huang · Answer 1 · 10 марта 2020

Попробуйте отфильтровать только ссылки с «опубликованной» подстрокой.

Попробуйте заменить значение для l oop следующим:

for link in soup.find_all('a'):
    if link.get('href').find("pubmed") > 0:
        print(link.get('href'))

Получить спецификацию c href с веб-страницы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Получить спецификацию c href с веб-страницы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов