как извлечь только классы из всех таблиц веб-страницы в python? - PullRequest
0 голосов
/ 21 апреля 2020
from bs4 import BeautifulSoup
import requests

req = requests.get("https://en.wikipedia.org/wiki/Harvard_University")
html_soup=soup.findAll('table', style="text-align:center; float:right; font-size:85%; margin-right:2em;")

classes=soup.findAll('tables')

Как извлечь только имена классов из всех таблиц?

1 Ответ

0 голосов
/ 21 апреля 2020

Вы можете использовать findAll(), чтобы выбрать все таблицы. Затем l oop просмотрите таблицы и добавьте классы в набор (чтобы избежать дублирования).

from bs4 import BeautifulSoup
import requests

page = requests.get("https://en.wikipedia.org/wiki/Harvard_University")
soup = BeautifulSoup(page.text, 'html.parser')

tables = soup.findAll("table")
classes = set()

for t in tables:
    if t.has_attr('class'):
        classes.update(t['class'])

l = list(classes)
print(l)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...