В настоящее время я работаю над проектом в Python, где мне нужно написать программу, которая удаляет все теги из файла HTML (поэтому остается только текст), но мне нужно сделать это около 1000 HTML файлов.
Это код, который я использовал для удаления тегов:
with open('/inetpub/wwwroot/content/html/eng/0320-0130.htm') as html_file:
source = html_file.read()
html = HTML (html = source)
print(html.text)
&
Этот код открывает им несколько файлов HTML:
import glob
path = '/inetpub/wwwroot/content/html/eng/*.htm'
files=glob.glob(path)
for file in files:
f=open(file, 'r')
print('%s' % f.readlines())
f.close()
Я не знаю, как объединить эти коды или какой код мне нужен для такой комбинации. Есть предложения?