Моя задача - автоматизировать печать данных инфобокса Википедии. Например, я соскребаю страницу википедии Star Trek (https://en.wikipedia.org/wiki/Star_Trek), извлекаю раздел инфобокса с правой стороны и печатаю их строка на экране с использованием Python. Я специально хочу информационное окно. Пока я сделал это:
from bs4 import BeautifulSoup
import urllib.request
# specify the url
urlpage = 'https://en.wikipedia.org/wiki/Star_Trek'
# query the website and return the html to the variable 'page'
page = urllib.request.urlopen(urlpage)
# parse the html using beautiful soup and store in variable 'soup'
soup = BeautifulSoup(page, 'html.parser')
# find results within table
table = soup.find('table', attrs={'class': 'infobox vevent'})
results = table.find_all('tr')
print(type(results))
print('Number of results', len(results))
print(results)
Это дает мне все из информационного окна. Ниже показан фрагмент:
[<tr><th class="summary" colspan="2" style="text-align:center;font-
size:125%;font-weight:bold;font-style: italic; background: lavender;">
<i>Star Trek</i></th></tr>, <tr><td colspan="2" style="text-align:center">
<a class="image" href="/wiki/File:Star_Trek_TOS_logo.svg"><img alt="Star
Trek TOS logo.svg" data-file-height="132" data-file-width="560" height="59"
Я хочу извлечь только данные и распечатать их на экране. Итак, что я хочу:
Created by Gene Roddenberry
Original work Star Trek: The Original Series
Print publications
Book(s)
List of reference books
List of technical manuals
Novel(s) List of novels
Comics List of comics
Magazine(s)
Star Trek: The Magazine
Star Trek Magazine
И так до конца информационного блока. Так что в основном это способ печатикаждую строку данных инфобокса, чтобы я мог автоматизировать их для любой вики-страницы? (класс инфобокс-таблицы всех вики-страниц, как показано в коде, 'infobox vevent')