HTML - символ фунта из базы данных отображается как? даже с кодировкой = UTF-8 - PullRequest
7 голосов
/ 08 декабря 2011

У нас есть куча данных базы данных, которые кто-то ввел вручную. Они содержат много символов британского фунта (£). Оригинальный пользователь скопировал / вставил знак фунта откуда-то, не уверенный где (я не уверен, имеет ли это значение или нет ...).

В любом случае, при печати данных на странице PHP знаки фунта отображаются как символ замены . На странице есть <meta charset="utf-8"/>. В браузере, если вы измените кодировку на ISO-8859-1, тогда знаки фунта будут отображаться правильно.

После некоторого копания я пришел к выводу, что первоначальный сотрудник по вводу данных скопировал / вставил закодированный знак фунта ISO-8859-1 в базу данных. Поэтому, если страница не отображается с помощью ISO-8859-1, она не будет отображаться правильно.

Вот информация заголовка из Chrome:

Request URL:http://www.mysite.com/test.php
Request Method:GET
Status Code:200 OK
Request Headersview source
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Charset:ISO-8859-1,utf-8;q=0.7,*;q=0.3
Accept-Encoding:gzip,deflate,sdch
Accept-Language:en-US,en;q=0.8
Cache-Control:max-age=0
Connection:keep-alive
Cookie:X-Mapping-goahf....
Host:www.mysite.com
User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.121 Safari/535.2
Response Headersview source
Connection:Keep-Alive
Content-Type:text/html; charset=UTF-8
Date:Wed, 07 Dec 2011 22:38:14 GMT
Server:Apache/2.2
Transfer-Encoding:chunked

Также в таблице MySQL указано, что используется latin1_swedish_ci, который был установлен по умолчанию.

Так, как мне решить эту проблему? Я мало знаю о том, как работает кодировка символов и что происходит, когда вы копируете / вставляете символы из одного места в другое.

Я пытался перейти на эту страницу:

http://www.fileformat.info/info/unicode/char/a3/browsertest.htm

И копируя символ фунта и вставляя его в базу данных, думая, что это исправит это, но он не выглядит ... Как сделать вместо этого символ фунта, находящийся в базе данных, в качестве символа фунта UTF-8 ISO-8859-1?

Ответы [ 2 ]

5 голосов
/ 08 декабря 2011

Неважно, откуда был скопирован исходный знак фунта. При этом не имеет значения, в какой кодировке он хранится в базе данных. База данных работает на уровне символов, что означает, что если вы попросите ее сохранить символ £, она будет содержать символ £; как именно это происходит за кулисами и какую кодировку он использует для выполнения, это деталь реализации, которая не имеет значения.

Что вам не хватает, так это то, что есть кодировка соединения . Когда вы подключаетесь к базе данных, вы говорите с ней неявно или явно, используя определенный набор символов. Это означает, что любые байты , которые вы отправляете в базу данных, должны представлять символы в этой кодировке (поэтому база данных знает, какие символы она якобы получает), и любые текстовые данные, которые вы получаете из базы данных, будут кодироваться в этой кодировке. кодирование (чтобы вы знали, как следует относиться к результатам). По умолчанию для этой кодировки соединения часто используется кодировка Latin-1 (a.k.a. ISO-8859-1). Поэтому, когда вы получаете знак £ из базы данных, он на лету конвертирует его в Latin-1, в какой бы кодировке он ни хранился в базе данных. Таким образом, вы получаете знак £, закодированный в Latin-1, и выводите его как есть на свою страницу, но вы указываете браузеру интерпретировать страницу как UTF-8. Это, конечно, приводит к неверно истолкованному характеру.

Можно изменить настройки по умолчанию для подключения различными способами, либо в конфигурации MySQL, используя определенные методы в вашей клиентской библиотеке (которые вы не указали), либо выполнив запрос SET NAMES utf8; после подключения к базе данных.

1 голос
/ 08 декабря 2011

Вы не можете просто взять необработанный текст в одной кодировке и использовать метатег utf8 для его отображения.

Я не знаю, что такое кодировка latin1_swedish_ci, но вполне возможно, что это псевдоним iso-8859-1. Поэтому вы либо конвертируете кодировку в UTF-8, либо исправляете метатег, чтобы показать правильную кодировку.

Если вы собираетесь конвертировать его, я предлагаю iconv . Возможно, вам придется убедиться, что mysql также знает новое кодирование. Кто-то, похоже, прошел через это http://drupal.org/node/62258

...