Я использую DOMDocument для манипулирования / изменения HTML, прежде чем он получит вывод на страницу. Это только фрагмент HTML, а не полная страница. Моя первоначальная проблема заключалась в том, что все французские персонажи испортились, что я смог исправить после некоторых проб и ошибок. Теперь кажется, что остается только одна проблема: «персонаж превращается в? .
код:
<?php
$dom = new DOMDocument('1.0','utf-8');
$dom->loadHTML(utf8_decode($row->text));
//Some pretty basic modification here, not even related to text
//reinsert HTML, and make sure to remove DOCTYPE, html and body that get added auto.
$row->text = utf8_encode(preg_replace('/^<!DOCTYPE.+?>/', '', str_replace( array('<html>', '</html>', '<body>', '</body>'), array('', '', '', ''), $dom->saveHTML())));
?>
Я знаю, что с декодированием / кодированием utf8 становится все хуже, но это единственный способ, которым я мог до сих пор работать. Вот пример строки:
Ввод:
Sans doute parce qu’il vient d’atteindre и до свидания в детях
Выход:
Sans Doute Parce Quil Vient D? Attainind Une Date D & Eacute, Terminte Dans Son Spectulaire Cheminement
Если я найду больше деталей, я добавлю их. Спасибо за ваше время и поддержку!