В настоящее время я пытаюсь почистить сайт для получения некоторой информации, но сталкиваюсь с некоторыми проблемами.
В настоящее время у меня есть элемент bs4.element.Tag с некоторым html и текстом в нем, и когда я делаю "variable.text", я получаю следующий текст:
\n\nUlmstead Club\n\t\t\t\t\t911 Lynch Dr\n\n\t\t\t\t\t\tArnold, Maryland\t\t\t\t\t 21012\n\t\t\t\t\tUnited States\n(410) 757-9836 \n\n Get directions\n\n Favorite court \n\n\n\nTennis Court Details\n\n\n\n\n\n\n\t\t\t\t\t\t\t\t\t\tLocation type:\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\t\t\n\n\t\t\t\t\t\t\t\t\t\tClub\t\t\t\t\t\t\t\t\t\n\n\n\n\t\t\t\t\t\t\t\t\t\tMatches played here:\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\t\t\n\n\t\t\t\t\t\t\t\t\t\t0\t\t\t\t\t\t\t\t\t\n\n\n\n\t\t\t\t\t\t\t\t\t\t
Я хочу избавиться от всех символов пробела (\n
и \t
), чтобы получить соответствующую информацию в списке или любой повторяемой форме.
Я уже пробовал кучу команд регулярных выражений, но одна из них, которая приблизила меня к моей цели, была: re.split('[\t\n]',variable.text)
, я получил следующее:
['',
'',
'Ulmstead Club',
'',
'',
'',
'',
'',
'911 Lynch Dr',
'',
'',
'',
'',
'',
'',
'',
'Arnold, Maryland',
'',
'',
'',
'',
Я отключил большую часть вывода, чтобы сэкономить место.
Я супер потерян, и любая помощь будет принята с благодарностью