Как следует из названия, я пытаюсь очистить несколько HTML документов с помощью Beautifulsoup в Python. Я особенно заинтересован в извлечении смелых текстов. Однако каждый документ использует разные обозначения. То есть в некоторых документах используется «b», в некоторых - «сильный», а в других - «вес шрифта: жирный». Есть ли способ конвертировать их все в один формат, как шаг предварительной обработки?
Меня не интересует решение, которое запрашивает его как операторы OR для каждого из них, поскольку мне приходится манипулировать их родительскими тегами, и это нарушает его. (Например, текст, связанный с весом шрифта, не имеет родителя, указывающего форматирование, но два других имеют его)
Если я поступаю неправильно, есть ли правильный способ сделать это? (Извиняюсь, если вопрос сформулирован плохо)