Исходный код HTML не понимает арабский текст? - PullRequest
0 голосов
/ 25 сентября 2011

Я пытаюсь прочитать исходный код веб-страницы, которая содержит арабский текст, но все, что я получаю, это جامعة (это не арабский, а группа символов).

Если я перезагружаю страницу на моем локальном хосте, я правильно получаю арабские теги и текст. Но мне действительно нужно прочитать этот исходный код. какие-либо предложения или строки кода я могу добавить?

<html dir=rtl>

<META http-equiv=Content-Type content=text/html;charset=windows-1256>

Это несколько строк, которые включают используемую «кодировку»! Страница написана с использованием HTML и PHP

1 Ответ

6 голосов
/ 25 сентября 2011

Символы просто экранированы в сущности HTML.Браузер декодирует их в «настоящие символы» при отображении страницы.Вы можете декодировать их самостоятельно, используя html_entity_decode:

html_entity_decode('&#1580;&#1575;&#1605;&#1593;&#1577;', ENT_COMPAT, 'UTF-8')

Обратите внимание на последний параметр, который устанавливает кодировку символов, которые будут декодироваться в .Используйте любую внутреннюю кодировку, я просто предлагаю UTF-8 здесь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...