Я пытаюсь проанализировать некоторый HTML-текст в кодировке UTF-8, который содержит левую и правую кавычки
Но когда я пытаюсь вернуть значение html из DOM с помощью saveHTML (), кавычки всегда портятся.
Теперь я попробовал несколько, в том числе utf8_encoding текста перед тем, как поместить его в DOM, я попытался вставить ('1.0', 'UTF-8') в конструктор, и он также не работал.
У меня заканчиваются идеи, как с этим разобраться.
Преобразование кавычек в html-объекты для меня не вариант.
Вот упрощенный пример, который разделяет кавычки:
$a = "<html><body><div>won’t you, will you, won’t you, join the </div></body></html>";
$dom = new DOMDocument();
$dom->loadHTML($a);
$xpath = new DOMXPath($dom);
$tag = $xpath->query('//div');
foreach($tag as $t)
echo $dom->saveHTML($t);
возвращенный текст выглядит так: присоединитесь, не присоединитесь ли вы к