Разбор в любой кодировке - PullRequest
1 голос
/ 14 августа 2011

Я использую функцию file_get_contents для разбора удаленных страниц.Проблема в кодировании.Когда я пытаюсь разобрать сайт с utf-8, все работает хорошо, но когда кодируется cp1251, я получаю следующий результат:

�����.UA / ������� ������: ������, ����, ���������, ������, ������, �������, ����, � ��., ������, ������, �����, ����, ����� � ������ ����100

Эта функция работает как публикация ссылки на Facebook.Пользователь вводит ссылку и получает результат.Мне нужна какая-то функция или метод для анализа сайтов в любой кодировке.Кодировка скрипта - UTF-8.

1 Ответ

2 голосов
/ 14 августа 2011

Вы можете попробовать mb_check_encoding () и попробовать некоторые кодировки, пока не найдете подходящее.

Однако вам следует немного поиграться с контекстом потока file_get_contents () или даже используйте cURL для загрузки сайта.Таким образом, вы можете получить заголовки, а также кодировку, используемую для документа.Как только вы знаете кодировку, должно быть легко преобразовать ее в UTF-8 .

...