Проблемы с парсингом HTML - PullRequest
0 голосов
/ 22 ноября 2018

В настоящее время у меня есть большой HTML-файл, заполненный каталогами, которые я должен анализировать и извлекать имена, адреса, почтовые индексы, номера телефонов, альтернативные номера телефонов и т. Д., Где я затем помещу содержимое в массив.Некоторые из этих списков каталогов (например, фрагмент, показанный ниже) являются менее сложными и простыми для анализа.

<span style="font-family: b'CUQZKJ+GaramondPremrPro-LtDisp'; font-size:12px">Aletheia House
<br>201 Finley Avenue West
<br>Birmingham, AL 35204
<br>(205) 324-6502x22
<br>Intake: (205) 324-6502
</span>

Пример вывода массива

["Aletheia House", "201 Finley Avenue West",
 "Birmingham, AL 35204", "(205) 324-6502x22", "Intake: (205) 324-6502"]

Однако в сценариях, подобных приведенному ниже фрагменту, я в настоящее время сталкиваюсь с проблемами, связанными с поиском способа анализа сценария с использованием BeautifulSoup, Python и RegEx.

<span style="font-family: b'CUQZKJ+GaramondPremrPro-LtDisp'; font-size:12px">Alcohol and Drug Abuse
<br>Treatment Centers Inc/Pearson Hall
<br>2701 Jefferson Avenue SW
<br>Birmingham, AL 35211
<br>(205) 923-6552x12
<br>Intakes: (205) 923-6552x10 (205) 923-
<br>6552x13
</span>

Пример вывода массива:

["Alcohol and Drug Abuse Treatment Centers Inc/Pearson Hall", 
 "2701 Jefferson Avenue SW", "Birmingham, AL 35211", "(205) 923-6552x12",
 "Intakes: (205) 923-6552x10 (205) 923-6552x13"]

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...