Я работаю с большой коллекцией документов, которые подготовлены более чем 5 тысячами разных организаций.Одна из вещей, которые я пытаюсь сделать, это определить, был ли установлен флажок.Подготовитель должен указать некоторую информацию, установив один из пяти различных флажков.
Проблема заключается в том, что составитель самостоятельно решил, как представить флажок в HTML.Некоторые из их представлений интересны.Они в основном полагаются на wingdings как директиву шрифта.Вот несколько типов флажков, которые я обнаружил до сих пор
'serif">S</font>'
'wingdings">x</font>'
'ü'
'ý'
'þ'
<font style="font-family: Wingdings; font-variant: normal">þ</font>
В фрагменте кода, который я вставил выше, будет отображаться флажок, когда документ открывается с помощью варианта IE, он будетсделать что-то еще, когда документ открыт с помощью Firefox, Safari или Chrome.
Вот еще один пример
<div style="DISPLAY: block; MARGIN-LEFT: 0pt; TEXT-INDENT: 0pt; MARGIN-RIGHT: 0pt" align="center"><font style="DISPLAY: inline; FONT-SIZE: 10pt; FONT-FAMILY: times new roman">THE DATA THAT HAS THE CHECKED BOX <font style="DISPLAY: inline; FONT-FAMILY: wingdings 2, serif">R</font></font></div>
Так что я думаю, в простейшем виде мой вопрос
Есть ли в Python что-то, что «знает», что
<font style="DISPLAY: inline; FONT-FAMILY: wingdings 2, serif">R</font>
это флажок установлен?А затем расширив это далее - есть ли что-то, что «знает» об этом практически во всех отношениях, когда флажок может быть представлен в HTML-коде?
Я хочу отметить, что когда я проверяю текст этого элемента шрифта, яполучить Unicode R
Надеюсь, это понятнее.