Question

Я использую Python 3.7, Django 2 и Beautiful Soup 4. У меня есть этот фрагмент HTML ...

<p class="tagline ">submitted&#32; on 2/20/2019</p>

Я хотел бы получить этот элемент и так Я создал следующий код ...

bs = BeautifulSoup(html, features="lxml")
...
pattern = re.compile(r'^submitted\&\#32\;')
submitted_elt = bs.find(text=pattern)

К сожалению, submit_elt всегда None. Что еще мне нужно сделать, чтобы настроить мое регулярное выражение для поиска этого элемента? Я не хочу, чтобы слово «представленное» было само по себе, потому что это вернет слишком много элементов.

xandermorrison · Answer 1 · 26 февраля 2020

Проблема в том, что   - это код символа HTML для пробела (проверьте HTML коды символов здесь ), и когда BeautifulSoup анализирует это html, он переводит его в фактический пространство в вашем супе. Вы можете проверить это, распечатав это. Помещение пробела в конец переданного в качестве шаблона ('^submitted ' вместо '^submitted ') заставляет его работать.

Почему мой текстовый поиск BeautifulSoup со специальными символами не может получить мой элемент?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Почему мой текстовый поиск BeautifulSoup со специальными символами не может получить мой элемент?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов