Question

Как следует из названия, я пытаюсь очистить несколько HTML документов с помощью Beautifulsoup в Python. Я особенно заинтересован в извлечении смелых текстов. Однако каждый документ использует разные обозначения. То есть в некоторых документах используется «b», в некоторых - «сильный», а в других - «вес шрифта: жирный». Есть ли способ конвертировать их все в один формат, как шаг предварительной обработки?

Меня не интересует решение, которое запрашивает его как операторы OR для каждого из них, поскольку мне приходится манипулировать их родительскими тегами, и это нарушает его. (Например, текст, связанный с весом шрифта, не имеет родителя, указывающего форматирование, но два других имеют его)

Если я поступаю неправильно, есть ли правильный способ сделать это? (Извиняюсь, если вопрос сформулирован плохо)

Конвертировать все <b><strong> и вес шрифта: жирный шрифт в одно представление Python Соскоб в Интернете

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Конвертировать все <b><strong> и вес шрифта: жирный шрифт в одно представление Python Соскоб в Интернете

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов