Я пытаюсь очистить фильмы на IMDb с помощью Python, и я могу получить данные обо всех важных аспектах, кроме имен актеров.
Вот пример URL, над которым я работаю:
https://www.imdb.com/title/tt0106464/
Используя функциональность браузера "Inspect", я обнаружил XPath, относящийся ко всем именам актеров, но когда запускается код на Python, похоже, что XPath недействителен (ничего не возвращает).
Вот простая версия кода, который я использую:
import requests
from lxml import html
movie_to_scrape = "https://www.imdb.com/title/tt0106464"
timeout_time = 5
IMDb_html = requests.get(movie_to_scrape, timeout=timeout_time)
doc = html.fromstring(IMDb_html.text)
actors = doc.xpath('//table[@class="cast_list"]//tbody//tr//td[not(contains(@class,"primary_photo"))]//a/text()')
print(actors)
Я много раз пытался изменить XPath, пытаясь сделать его более общим, а затем более конкретным, но он все равно ничего не возвращает