Я оцениваю сотни тысяч HTML-файлов. Я ищу отдельные части файлов. Способы создания файлов могут быть небольшими
Например, в одном файле у меня может быть заголовок раздела (после того, как я преобразовал его в верхний и разделил, а затем соединил текст, чтобы избавиться от возможных противоречивых пробелов:
u'KEY1A\x97RISKFACTORS'
В другом файле я мог бы иметь:
'KEY1ARISKFACTORS'
Я пытаюсь создать словарь возможных ответов, и я хочу сравнить эти два и сделать вывод, что они равны. Но каждая замена, которую я пытаюсь выполнить первой строкой для удаления '\ 97, кажется, не работает
Существует довольно много вариантов ключей с различными представлениями сущностей, поэтому я действительно хотел бы создать словарь более или менее автоматически, поэтому у меня есть что-то вроде:
key_dict={'u'KEY1A\x97RISKFACTORS':''KEY1ARISKFACTORS',''KEY1ARISKFACTORS':'KEY1ARISKFACTORS',. . .}
Я предполагаю, что с тех пор, как я бегу
S1='A'
S2=u'A'
S1==S2
Я получаю
True
Я должен иметь возможность сравнить их после обработки html-сущностей
Что я специально пытался сделать, это
new_string=u'KEY1A\x97RISKFACTORS'.replace('|','')
Я получил ошибку
Извините, я был в этом с прошлой ночи. SLott указал на что-то, и я вижу, что использовал неправильный ярлык. Надеюсь, это имеет больше смысла