utf8_encode или decode не выполняет то, что я ожидаю - PullRequest
1 голос
/ 25 июня 2010

Я беру файл XML и считываю его в различные строки перед записью в базу данных, однако у меня возникают проблемы с немецкими символами.

Файл XML начинается с

<?xml version="1.0" encoding="UTF-8"?>

Тогда пример, где у меня проблемы, это часть

<name><![CDATA[PONS Großwörterbuch Deutsch als Fremdsprache Android]]></name>

Мой PHP имеет этот соответствующий раздел

$dom = new DOMDocument();
$domNode = $xmlReader->expand();
$element = $dom->appendChild($domNode);
$domString = utf8_encode($dom->saveXML($element));
$product = new SimpleXMLElement($domString);

//read in data
$arr = $product->attributes();
$link_ident = $arr["id"];
$link_id =  $platform . "" . $link_ident;
$link_name = $product->name;

Таким образом, $ link_name становится PONS. Groovetcherbuch Deutsch als Fremdsprache Android

Я тогда сделал

$link_name = utf8_decode($link_name);

Что, когда я возвращался в терминал, работало нормально

PONS GroÃwörterbuch Deutsch als Fremdsprache Android as is now 
PONS Großwörterbuch Deutsch als Fremdsprache Android after utf8decode 

Однако, когда он записывается в мою базу данных, он выглядит как:

PONS Kompaktwürterbuch Deutsch-Englisch (Android)

Параметры сортировки для link_name в MysQL: utf8_general_ci

Как мне это сделать, чтобы правильно записать это в мою базу данных?

Это код, который я использую для записи в базу данных

$link_name = utf8_decode($link_name);
$link_id = mysql_real_escape_string($link_id);
$link_name = mysql_real_escape_string($link_name);
$description = mysql_real_escape_string($description);
$metadesc = mysql_real_escape_string($metadesc);
$link_created = mysql_real_escape_string($link_created);
$link_modified = mysql_real_escape_string($link_modified);
$website = mysql_real_escape_string($website);
$cost = mysql_real_escape_string($cost);
$image_name = mysql_real_escape_string($image_name);
$query = "REPLACE into jos_mt_links
(link_id, link_name, alias, link_desc, user_id, link_published,link_approved, metadesc, link_created, link_modified, website, price)
VALUES ('$link_id','$link_name','$link_name','$description','63','1','1','$metadesc','$link_created','$link_modified','$website','$cost')";
echo $link_name . " has been inserted ";

и когда я запускаю его из оболочки, я вижу

PONS Kompaktwörterbuch Deutsch-Englisch (Android) has been inserted

Ответы [ 2 ]

1 голос
/ 25 июня 2010

У вас есть строка UTF-8 из файла XML, и вы помещаете ее в базу данных UTF-8. Таким образом, кодирование или декодирование не требуется, просто вставьте исходную строку в базу данных. Сначала убедитесь, что вы использовали mysql_set_charset('utf-8'), чтобы сообщить базе данных о поступлении строк UTF-8.

utf8_decode и utf8_encode названы неверно. Они только для преобразования между кодировками UTF-8 и ISO-8859-1. Вызов utf8_decode, который конвертируется в ISO-8859-1, естественным образом потеряет все ваши символы, которые не вписываются в эту кодировку. Как правило, вы должны избегать этих функций, если нет конкретного места, где вам нужно использовать 8859-1.

Вы не должны учитывать то, что выводит терминал, когда вы выводите строку, чтобы быть окончательным. Терминал имеет свои собственные проблемы с кодировкой, и особенно под Windows, вероятно, будет невозможно правильно вывести каждый символ. При установке в Windows Windows системная кодовая страница (которую терминал будет использовать для преобразования байтов, которые PHP выводит в символы для отображения на экране) будет кодовой страницей 1252, которая похожа, но не совпадает с ISO-8859-1 , Вот почему utf8_decode, который выдает ISO-8859-1, появился, чтобы текст выглядел так, как вы ожидали. Но это мало что дает. Внутренне вы должны использовать UTF-8 для всех строк.

1 голос
/ 25 июня 2010

Вы должны использовать mb_convert_encoding или iconv unction, прежде чем писать в свою базу данных.

...