Как я могу гарантировать, что символы utf-8 будут аккуратно удалены с помощью CURL в php? - PullRequest
1 голос
/ 03 августа 2009

Я очищаю веб-страницы (используя локоны php), в которых есть акцентированные символы (например, «é»). В источнике этих веб-страниц эти символы написаны с использованием utf-8 (они не закодированы в формате html).

Однако, когда результат получается с использованием следующего кода, я получаю знаки вопроса вместо акцентированных символов.

$ch = curl_init();
$timeout = 5;
curl_setopt ($ch, CURLOPT_URL, $website);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
$file = curl_exec($ch);
curl_close($ch);

Информация заголовка, возвращаемая с очищенной веб-страницы, указывает, что для Контента установлено значение "html / text". Нет никаких признаков того, что это кодируется utf-8. Я пытался использовать параметр curl CURLOPT_HTTPHEADER, чтобы изменить кодировку текста, но это ничего не делает.

Что мне не хватает?

1 Ответ

1 голос
/ 14 августа 2009

Согласно ответу на мой вопрос, посмотрите на символы изменены в запросе Curl

Ответ Доминик Роджер только что спас мой день своим ответом ..

...