Строки символов, которые вы видите, называются символьными ссылками на сущности или чаще в этом контексте. Это способ использовать символы, которые они представляют, в ограниченной кодировке символов, которая не поддерживает символы. Вы видите это вместо акцентированного «i», потому что, когда вы собирали контент, вы явно не говорили «харвестеру», что делать с такими персонажами. Возможно, на исходной странице использовались эти ссылки на сущности, или, возможно, «харвестер» предположил, что это именно то, что вам нужно, и превратил символы в ссылки на сущности.
Чтобы "исправить" их, вам нужно решить, что именно вы хотите делать с этим контентом. Т.е .: что собираются использовать эти данные. Как только вы это поймете, у вас есть хотя бы пара вариантов.
Ничего не делать: если вы отправляете этот контент чему-то, что использует ограниченный набор символов, такой как ASCII, и знает, как использовать эти ссылки на сущности, то вы, вероятно, в порядке, просто оставив их там. Например, если вы просто используете их для создания большего количества веб-страниц, вы можете оставить их как есть, и они должны правильно отображаться при просмотре веб-страницы.
Расшифруйте их, используя модуль perl, такой как HTML :: Entities : Если вы знаете, что объект, на который вы отправляете, может поддерживать представление Unicode (например, UTF-8), тогда Вы можете использовать функцию decode_entities () из этого модуля, чтобы превратить эти строки в символы Юникода. Если вы сделаете это, помните, что некоторые вещи, которые вам могут понадобиться для представления представлений, будут декодированы, и вам может понадобиться перекодировать их или каким-то образом не допустить их декодирования.