Использование BeaufifullSoup для одновременной очистки более 300 сотен страниц - PullRequest
0 голосов
/ 29 апреля 2019

У меня есть текстовый файл с веб-сайта, с 300 файлами HTML внутри.(utf.txt)

Как мне его почистить ... Я попробовал Beautifulsoup, но он очищает только первый.Мне нужен тег "font".

from bs4 import BeautifulSoup

with open("utf.txt", encoding='utf-8') as fp:
    soup = BeautifulSoup(fp)

print (soup.find_all('font'))

С уважением,

1 Ответ

0 голосов
/ 29 апреля 2019

Вы почти у цели!Осталось только перебрать файлы в каталоге.

Вывести список файлов в папке

import os
folder_with_files = "C://Users//zila//PMDB"  # from comments below
html_files = os.listdir(folder_with_files)

# With the list open each by doing the following

for file in html_files:
    with open(f’{folder_with_files}/{file}’ as fh:
        text = str()
        for line in fh.readlines():
            text += text
        soup = BeautifulSoup(text)
          print (soup.find_all('font'))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...