UTF-8 и HTML-сущности - PullRequest
       0

UTF-8 и HTML-сущности

5 голосов
/ 04 июня 2011

Я пытаюсь извлечь текст из файла Word .DOC с помощью PHP. Все вроде нормально, но единственная проблема - что-то вроде

СУДОВА БУХГАЛТЕРІЯ

вместо русского текста. Я пытался использовать html_entity_decode и utf8_encode, но они не помогли. Есть ли простое решение?

1 Ответ

4 голосов
/ 04 июня 2011

html_entity_decode должен работать с правильными параметрами (если вы не используете PHP 5.3.3 или новее):

html_entity_decode($str, ENT_QUOTES, 'UTF-8')

Это преобразует ссылки на символы в UTF-8.До PHP 5.3.3 значение по умолчанию для параметра charset было ISO-8859-1.В этом случае символы кириллицы не могут быть преобразованы, поскольку набор символов ISO 8859-1 не содержит их.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...