Получение нежелательных данных после сканирования сайта - PullRequest
0 голосов
/ 06 марта 2020

Code[][1]

Я сканирую веб-сайт, на котором я получаю нежелательные данные, такие как \r\n, и я использую метод .split() и .replace для строки, но он не работает. Ниже приведен код и вывод, который я получаю -

for i in url_event_final:
    res2 = requests.get(i)
    source2 = res2.content
    try:
        event_title = str((re.findall(r'class="header-mega">(.*?)</h1>', str(source2), re.DOTALL)[0])).replace('\r\n', '').strip()
        print(event_title)
    except Exception as e:
        try:
            event_title = str((re.findall(r'3-4 mobile-lg-1-1">(.*?)</h1>', str(source2), re.DOTALL)[0])).strip().replace('\r\n', '').replace('\r', '')

        print(event_title)
    except:
        try:
            event_title = (re.findall(r'3-4 mobile-lg-1-1">(.*?)\s</h1>', str(source2), re.DOTALL)[0]).replace('\r\n', '').strip()
            print(event_title)
        except Exception as e:
            event_title = (' ')

ВЫХОД

\r\n Wat is er te zien in het Rijksmuseum?\r\n \r\n Dankzij Waller 2010-2020\r\n \r\n Hoogtepunten van Italiaanse tekeningen in het Rijksmuseum\r\n \r\n Nieuwe presentaties in het Aziatisch Paviljoen\r\n \r\n Reizende tentoonstelling Schatten uit het Rijks\r\n \r\n Muziekparade\r\n \r\n Hollandse meesterwerken op Schiphol\r\n \r\n XXL Papier\r\n \r\n Willem Diepraam, 50 jaar fotografie\r\n \r\n Tentoonstelling Slavernij in het Rijksmuseum\r\n

Ответы [ 2 ]

0 голосов
/ 06 марта 2020

У меня нет вашего исходного файла html. Попробуйте приведенное ниже решение. регулярное выражение - '\r\n(.*)\r\n'.

solution output

Python версия - 3.7. Надеюсь, это поможет.

0 голосов
/ 06 марта 2020

у вас может быть несколько строк кода для удаления этих символов. Попробуйте:

 eventTitle = [x.strip('\n') for x in eventTitle]
 eventTitle = [x.strip('\r') for x in eventTitle]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...