У меня есть несколько текстов HTML, которые включают теги <sub>
и <sup>
. Мне интересно, как мне преобразовать их в простой текст, чтобы они правильно обрабатывались текущими моделями spaCy.
Должен ли я конвертировать и как что-то вроде a_b
и a^b
, чтобы сохранить индекс и верхний индекс? Спасибо.