PHP-функция cUrl, возвращающая плохие символы - PullRequest
1 голос
/ 23 марта 2011

Я пытаюсь получить удаленную HTML-страницу с помощью cURL - однако, когда я анализирую возвращаемый текст, я замечаю много странных символов, таких как ▀Ã, что заставляет меня думать, что что-то пошло не так с кодировка текста где-нибудь вдоль линии.

Как я могу убедиться, что текст, который я получаю от cURL, правильно закодирован, и как я могу его нормализовать, чтобы я мог безопасно хранить результаты в базе данных без каких-либо проблем с кодировкой?

Ответы [ 2 ]

5 голосов
/ 23 марта 2011

Я надеюсь, что вы установили для CURLOPT_ENCODING значение "", и страница не заполнена тем бредом, который вы видите, второе, что я могу предложить, - это пропустить строку через что-то вроде html-сущностей для ее очистки.Curl просто получает / публикует данные и, ИМХО, не меняет кодировки

0 голосов
/ 21 декабря 2011

В верхней части страницы необходимо указать следующее:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...