Проблема Web Scraping через python, не удается прочитать файл html? - PullRequest
0 голосов
/ 07 апреля 2020

Некоторое время веб-списывал с Python, и недавно я столкнулся с этой проблемой. Кажется, BeautifulSoup не может прочитать файл html.

Например, я пытаюсь записать с этого сайта https://www.thetvdb.com/series/initial-d/episodes/4889010

И это мой код

from bs4 import BeautifulSoup
import requests
url_episode = 'https://www.thetvdb.com/series/initial-d/episodes/4889010'
print(url_episode)
getdetail_episode = requests.get(url_episode)
soup = BeautifulSoup(getdetail_episode.content,'html.parser')
print(soup.prettify())

Мне удалось очистить данные из других ссылок, но не по этой.

Что еще мне нужно сделать, чтобы это работало? Спасибо

ОБНОВЛЕНИЕ Итак, я проверил с Relp.it и другими онлайн python компиляторами, код работал. WTF?

И это не работает с моим Sublime Text или Python IDLE компилятором на моем компьютере?

Я в замешательстве.

1 Ответ

0 голосов
/ 07 апреля 2020

Ладно, думаю, я понял это. Вся проблема была вызвана задержкой загрузки данных с веб-страницы, из-за чего в IDE сложилось впечатление, что нет данных для очистки.

Закончено использование запросов- html вместо BeautifulSoup для их разрешения.

, очень похоже на это

from bs4 import BeautifulSoup
import requests
from requests_html import HTMLSession
session = HTMLSession()
url_episode = 'https://www.thetvdb.com/series/initial-d/episodes/4889010'
getdetail_episode = session.get(url_episode)
soup = BeautifulSoup(getdetail_episode.content,'html.parser')
print(soup.prettify())
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...