Я открыл каталог, содержащий 200 html-файлов, используя BeautifulSoup, но когда я пытаюсь распечатать содержимое всего каталога с помощью print(soup.prettify())
, он показывает только содержимое только одного HTML-файла.То же самое происходит, если я пытаюсь soup.find('title')
, он загружает только заголовок того же HTML-файла, что и раньше.Ты можешь сказать мне, почему ?Python не показывает никаких ошибок, и я не могу понять, что не так в моем коде.
import os
from bs4 import BeautifulSoup
import glob
import errno
dir_path = '/Users/martinagalletti/Desktop/parte 2 data mining/train/student'
files = glob.glob(dir_path)
for name in files:
try:
with open(name) as f:
soup = BeautifulSoup(f, "html.parser")
print(type(soup))
except IOError as exc:
if exc.errno != errno.EISDIR:
raise
print(type(soup))
soup.find('title')