В свое время нам было все равно.Все было текстовым.Затем пришли Microsoft с их расширениями ASCII, и следующее, что мы знали, все пошло на хер.:-) Эй, ты, MICROSOFT, выйди из моего права!
К сожалению, в современном мире Интернета и Интернета важно учитывать это с первой строки созданного кода или текстового содержимого.
Когда ваш сайт генерирует выходные данные, у вас есть преимущество и вы можете убедиться, что все ваши исходные тексты и шаблоны используют кодировку UTF-8.
Если вы принимаете контент других людей с помощью синтаксического анализа или очистки, тоВаша задача становится намного сложнее, потому что веб-серверы любят лгать о том, что они вам посылают, HTML-страницы любят лгать, даже, и трудно поверить, что XML-страницы будут лгать, хотя и не должны.Из-за этого ваш код должен быть очень защитным и быть готовым к многобайтовому кодированию, когда вы чувствуете символы в «чужом» наборе кодов.Возможно, вам придется перепрыгнуть через несколько обручей, чтобы преобразовать обратно в выбранную вами кодировку UTF-8, которая является моей рекомендацией, или ISO1859-1, или CP1252, или что бы то ни было.Убедитесь, что вы используете rescue
блоки, и протестируйте, протестируйте, протестируйте, если вы хотите сделать вашу систему надежной и пуленепробиваемой.
Это моя рекомендация, основанная на некоторых с трудом завоеванных знаниях, пишущих много скребков вPerl и Ruby.