Обработка проблем кодировки символов HTML - PullRequest
1 голос
/ 11 августа 2011

- Думаю, это называется кодировкой символов, но, если я ошибаюсь, переименуйте его -

Проблема: Попытка использовать HTML с помощью phpquery и поддерживатьЦелостность HTML после того, как он проходит через функции phpquery.

Это изменения в HTML, которые выполняются через функции:

  1. Оригинальный HTML: <strong> Fast & Strong I Concrete</strong>

  2. HTML-страница, преобразованная в PHPQueryObject: <strong> Fast& Strong I&Acirc;&nbsp;Concrete</strong>

  3. PHPQueryObject, выполняемый через функцию Find (): <strong> Fast & Strong IÂ Concrete</strong>

Пробовал различные комбинации htmlentities(), html_entity_decode(), iconv() для управления перемещением данных и сохранения исходной структуры без отображения группы ненужных символов.Я думаю, что это ограничение способности phpquery использовать html, поэтому мне нужно обойти это.

Я успешно удалил Â и другие ненужные символы с помощью iconv("UTF-8", "BIG5//IGNORE"), но это несколько разрушительно дляоригинальный HTML, поскольку он предназначен для традиционных китайских иероглифов.

Вопрос: Что такое &Acirc; и &nbsp; и как я могу их обработать, чтобы использованные HTML # 2 и # 3 выше отображали, как первоначально предполагалось # 1 выше, без отображения дополнительных символовв браузер?

...