Как удалить текстовый файл по тому, что он содержит - PullRequest
0 голосов
/ 07 апреля 2020

Я хочу удалить текстовые файлы из моего каталога. Я создаю webscraper, но так как я не знаю, как сделать мой код, чтобы он видел, что для этого нужно, я должен удалить файлы, которые содержат: «Dit vers in de gekozen berijming niet beschikbaar. Kies hieronder een andere berijming».

Это мой код

import os
import requests
from bs4 import BeautifulSoup
import re


url = 'https://psalmboek.nl/zingen.php?psID='
psalm = int(1)
url3 = '&psvID='
vers = int(1)
url5 = '#psvs'

end_psalm = 151
end_vers = 89


while vers != end_vers or psalm != end_psalm:

    response = requests.get(url + str(psalm) + url3 + str(vers) + url5)

    soup = BeautifulSoup(response.text, "html.parser")
    soup.findAll('p')
    one_a_tag = soup.findAll('p')[0]
    f = open("psalm"+str(psalm)+"_"+"vers"+str(vers) +  ".txt","w+")
    f.write(re.sub(re.compile('<.*?>'), '', str(one_a_tag)))
    f.close
    vers += 1

    while vers == end_vers:
        psalm += 1
        vers -= end_vers
        vers += 1
        break

    while psalm == end_psalm:
        continue

    print (vers)

else:
    print("STOP")

Когда я запускаю эту программу, она будет писать для всех 150 псалтов 88 стихов. В то время как Псалтирь 119 содержит 88 стихов. Pslater 1 содержит только 4.

Как я могу решить эту проблему?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...