Question

Я пытаюсь получить удаленную HTML-страницу с помощью cURL - однако, когда я анализирую возвращаемый текст, я замечаю много странных символов, таких как Ã¢Â–Â€Ã, что заставляет меня думать, что что-то пошло не так с кодировка текста где-нибудь вдоль линии.

Как я могу убедиться, что текст, который я получаю от cURL, правильно закодирован, и как я могу его нормализовать, чтобы я мог безопасно хранить результаты в базе данных без каких-либо проблем с кодировкой?

Kumar · Answer 1 · 23 марта 2011

Я надеюсь, что вы установили для CURLOPT_ENCODING значение "", и страница не заполнена тем бредом, который вы видите, второе, что я могу предложить, - это пропустить строку через что-то вроде html-сущностей для ее очистки.Curl просто получает / публикует данные и, ИМХО, не меняет кодировки

big_hands · Answer 2 · 21 декабря 2011

В верхней части страницы необходимо указать следующее:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

PHP-функция cUrl, возвращающая плохие символы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

PHP-функция cUrl, возвращающая плохие символы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов