Пытаюсь разобрать HTML-файлы, используя BeautifulSoup и python. Файлы загружаются с HTML-сайтов, поэтому они находятся в автономном режиме. Например, исходный код этой страницы: http://forum.pcgames.de/offizielle-ankuendigungen/9332445-videoforen-unterbereich-jetzt-geoeffnet-print.html
Вместо анализа файлов появляется ошибка AttributeError '_io.TextIOWrapper' object has no attribute 'text'
. Я предполагаю, что переменная page
имеет неправильный тип класса. Как я могу сделать переменную способной обрабатываться с Beautifulsoup?
Я сравнил процесс с HTML-сайтами, которые загружаются в скрипт по запросу. Кажется, у них другой тип класса <class 'requests.models.Response'>
.
Тип класса переменной page
(см. Ниже): <class 'str'>
.
Я открываю файл в python, используя
path = open('test.html', 'r')
page = path.read()
path.close
Я пытаюсь обработать на нем HTML-парсер Beautifulsoup:
from bs4 import BeautifulSoup
soup = BeautifulSoup(page.text, 'html.parser')
Появляется следующая ошибка:
AttributeError: 'str' object has no attribute 'text'
Я не ожидал ошибки в этой строке кода. На самом деле не должно быть выхода.