Kashif 12 июля 2020 3

Python парсинг ссылок fetech href

Kashif / 12 июля 2020

Мне нужно получить Art and Biography по ссылке ниже href

<a class="gr-hyperlink" href="/genres/art">Art</a>,
 <a class="gr-hyperlink" href="/genres/biography">Biography</a>,

Это мой код

import numpy as np
import pandas as pd
from urllib import urlopen
from bs4 import BeautifulSoup
import re

def getHTMLContent(link):
    html = urlopen(link)
    soup = BeautifulSoup(html, 'html.parser')
    return soup

content = getHTMLContent('https://abc')
hyperLinks = content.find_all('a', class_="gr-hyperlink")
hyperLinks

1 Ответ

Infinity / 12 июля 2020

После выполнения find_all на элементе BeautifulSoup вы получаете итеративный ResultSet элемент.
Каждый элемент в ResultSet является элементом BeautifulSoup Tag.

Используйте метод BeautifulSoup get_text для извлечения текста Tag:

content = [link.get_text() for link in hyperLinks]

...