У меня есть список 5000
лучших фильмов, охватывающих 50
страницы. Веб-сайт
http://5000best.com/movies/
Я хочу извлечь названия из 5000 фильмов, а затем нажать на ссылку с названием каждого фильма. Каждая ссылка будет перенаправлять меня на страницу IMDb
. Затем я хочу извлечь имя director's
. Это даст мне таблицу с 5000 строками, столбцами будут название фильма и режиссер. Эти данные будут экспортированы в CSV или XLSX.
У меня есть следующие для извлечения текста:
import requests
start_url = 'http://5000best.com/movies/'
r = requests.get(url)
soup = bs4.BeautifulSoup(r.text)