Я анализирую текст / html с веб-страниц в фиде xml, текст / html кодируется iso-8895-1, в то время как фид XML должен быть UTF-8. Я использовал html-сущности, но мне приходится вручную заменять множество символов, вот что я имею до сих пор (все еще не разбираю весь текст)
$desc = str_replace(array("\n", "\r", "\r\n"),"",$desc);
$desc = str_replace(array("’","‘","”","“"),"'",$desc);
$desc = str_replace("£","£",$desc);
$desc = str_replace("é","é",$desc);
$desc = str_replace("²","2",$desc);
$desc = str_replace(array("-","•"),"‐",$desc);
$desc = htmlentities($desc, ENT_QUOTES, "UTF-8");