Короткий ответ: вам не нужно использовать сущности для большинства символов, если вы объявляете набор символов документов UTF-8
(используя заголовок Content-Type
, элемент meta
charset
взаголовок или атрибут xml
encoding
с XHTML) ...
Единственными символами, которые НУЖНО кодировать в HTML-документе UTF-8, являются (в зависимости от контекста):
&
=> & <
=> <</li> >
=>> "
=> "
И если вы используете XHTML (который также является допустимым XML), вам также необходимо кодировать одинарные кавычки либо (опять же, в зависимости от контекста):
'
=> ' '
=>' '
=> '
(Обратите внимание, что последние 2 предпочтительнее, поскольку '
не определено в HTML ...)
Также обратите внимание, что &, <и> необходимо экранировать везде, а "и" нужно экранировать только внутри соответствующего атрибута (поэтому, если атрибут цитируется с помощью"
, вам нужновыделите все остальные "
символы внутри этого атрибута) ...
См. HTML 5 Draft для получения дополнительной информации ...