Я сканирую веб-сайт, на котором я получаю нежелательные данные, такие как \r\n
, и я использую метод .split()
и .replace
для строки, но он не работает. Ниже приведен код и вывод, который я получаю -
for i in url_event_final:
res2 = requests.get(i)
source2 = res2.content
try:
event_title = str((re.findall(r'class="header-mega">(.*?)</h1>', str(source2), re.DOTALL)[0])).replace('\r\n', '').strip()
print(event_title)
except Exception as e:
try:
event_title = str((re.findall(r'3-4 mobile-lg-1-1">(.*?)</h1>', str(source2), re.DOTALL)[0])).strip().replace('\r\n', '').replace('\r', '')
print(event_title)
except:
try:
event_title = (re.findall(r'3-4 mobile-lg-1-1">(.*?)\s</h1>', str(source2), re.DOTALL)[0]).replace('\r\n', '').strip()
print(event_title)
except Exception as e:
event_title = (' ')
ВЫХОД
\r\n Wat is er te zien in het Rijksmuseum?\r\n \r\n Dankzij Waller 2010-2020\r\n \r\n Hoogtepunten van Italiaanse tekeningen in het Rijksmuseum\r\n \r\n Nieuwe presentaties in het Aziatisch Paviljoen\r\n \r\n Reizende tentoonstelling Schatten uit het Rijks\r\n \r\n Muziekparade\r\n \r\n Hollandse meesterwerken op Schiphol\r\n \r\n XXL Papier\r\n \r\n Willem Diepraam, 50 jaar fotografie\r\n \r\n Tentoonstelling Slavernij in het Rijksmuseum\r\n