Конвертировать все <b><strong> и вес шрифта: жирный шрифт в одно представление Python Соскоб в Интернете - PullRequest
0 голосов
/ 28 апреля 2020

Как следует из названия, я пытаюсь очистить несколько HTML документов с помощью Beautifulsoup в Python. Я особенно заинтересован в извлечении смелых текстов. Однако каждый документ использует разные обозначения. То есть в некоторых документах используется «b», в некоторых - «сильный», а в других - «вес шрифта: жирный». Есть ли способ конвертировать их все в один формат, как шаг предварительной обработки?

Меня не интересует решение, которое запрашивает его как операторы OR для каждого из них, поскольку мне приходится манипулировать их родительскими тегами, и это нарушает его. (Например, текст, связанный с весом шрифта, не имеет родителя, указывающего форматирование, но два других имеют его)

Если я поступаю неправильно, есть ли правильный способ сделать это? (Извиняюсь, если вопрос сформулирован плохо)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...