Python парсинг ссылок fetech href - PullRequest
0 голосов
/ 12 июля 2020

Мне нужно получить Art and Biography по ссылке ниже href

<a class="gr-hyperlink" href="/genres/art">Art</a>,
 <a class="gr-hyperlink" href="/genres/biography">Biography</a>,

Это мой код

import numpy as np
import pandas as pd
from urllib import urlopen
from bs4 import BeautifulSoup
import re

def getHTMLContent(link):
    html = urlopen(link)
    soup = BeautifulSoup(html, 'html.parser')
    return soup

content = getHTMLContent('https://abc')
hyperLinks = content.find_all('a', class_="gr-hyperlink")
hyperLinks

1 Ответ

0 голосов
/ 12 июля 2020
  1. После выполнения find_all на элементе BeautifulSoup вы получаете итеративный ResultSet элемент.
  2. Каждый элемент в ResultSet является элементом BeautifulSoup Tag.

Используйте метод BeautifulSoup get_text для извлечения текста Tag:

content = [link.get_text() for link in hyperLinks]
...