Question

Code[][1]

Я сканирую веб-сайт, на котором я получаю нежелательные данные, такие как \r\n, и я использую метод .split() и .replace для строки, но он не работает. Ниже приведен код и вывод, который я получаю -

for i in url_event_final:
    res2 = requests.get(i)
    source2 = res2.content
    try:
        event_title = str((re.findall(r'class="header-mega">(.*?)</h1>', str(source2), re.DOTALL)[0])).replace('\r\n', '').strip()
        print(event_title)
    except Exception as e:
        try:
            event_title = str((re.findall(r'3-4 mobile-lg-1-1">(.*?)</h1>', str(source2), re.DOTALL)[0])).strip().replace('\r\n', '').replace('\r', '')

        print(event_title)
    except:
        try:
            event_title = (re.findall(r'3-4 mobile-lg-1-1">(.*?)\s</h1>', str(source2), re.DOTALL)[0]).replace('\r\n', '').strip()
            print(event_title)
        except Exception as e:
            event_title = (' ')

ВЫХОД

\r\n Wat is er te zien in het Rijksmuseum?\r\n \r\n Dankzij Waller 2010-2020\r\n \r\n Hoogtepunten van Italiaanse tekeningen in het Rijksmuseum\r\n \r\n Nieuwe presentaties in het Aziatisch Paviljoen\r\n \r\n Reizende tentoonstelling Schatten uit het Rijks\r\n \r\n Muziekparade\r\n \r\n Hollandse meesterwerken op Schiphol\r\n \r\n XXL Papier\r\n \r\n Willem Diepraam, 50 jaar fotografie\r\n \r\n Tentoonstelling Slavernij in het Rijksmuseum\r\n

josepraveen · Answer 1 · 06 марта 2020

У меня нет вашего исходного файла html. Попробуйте приведенное ниже решение. регулярное выражение - '\r\n(.*)\r\n'.

Python версия - 3.7. Надеюсь, это поможет.

chrisHG · Answer 2 · 06 марта 2020

у вас может быть несколько строк кода для удаления этих символов. Попробуйте:

 eventTitle = [x.strip('\n') for x in eventTitle]
 eventTitle = [x.strip('\r') for x in eventTitle]

Получение нежелательных данных после сканирования сайта

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Получение нежелательных данных после сканирования сайта

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов