Как удалить HTML текст из моих текстовых файлов - PullRequest
0 голосов
/ 06 апреля 2020

Мне нужно удалить HTML из моего текстового файла

Это мой код

import requests
from bs4 import BeautifulSoup


url = 'https://psalmboek.nl/zingen.php?psID='
psalm = 1
url3 = '&psvID='
vers = 1
url5 = '#psvs'

end_psalm = 150
end_vers = 10

Я нашел эту переменную, но я не знаю, как поместить ее в мой l oop

def remove_html_tags(text):
    """Remove html tags from a string"""
    import re
    clean = re.compile('<.*?>')
    return re.sub(clean, '', text)

Возможно ли также псалом + = 1, чтобы он повторялся до 150-го псалта?

while vers != end_vers:

    response = requests.get(url + str(psalm) + url3 + str(vers) + url5)

    soup = BeautifulSoup(response.text, "html.parser")
    soup.findAll('p')
    one_a_tag = soup.findAll('p')[0]
    f = open("psalm"+str(psalm)+"_"+"vers"+str(vers) +  ".txt","w+")
    f.write(str(one_a_tag))
    f.close
    vers += 1
    print (vers)

Так что мне нужно удалить каждый HTML код, который приходит one_a_tag

1 Ответ

0 голосов
/ 06 апреля 2020

Если я вас правильно понял, вы можете попробовать этот код:

    f.write(re.sub(re.compile('<.*?>'), '', str(one_a_tag)))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...