Question

Я пытаюсь извлечь текст из файла Word .DOC с помощью PHP. Все вроде нормально, но единственная проблема - что-то вроде

&#x0421;&#x0423;&#x0414;&#x041e;&#x0412;&#x0410; &#x0411;&#x0423;&#x0425;&#x0413;&#x0410;&#x041b;&#x0422;&#x0415;&#x0420;&#x0406;&#x042f;

вместо русского текста. Я пытался использовать html_entity_decode и utf8_encode, но они не помогли. Есть ли простое решение?

Gumbo · Answer 1 · 04 июня 2011

html_entity_decode должен работать с правильными параметрами (если вы не используете PHP 5.3.3 или новее):

html_entity_decode($str, ENT_QUOTES, 'UTF-8')

Это преобразует ссылки на символы в UTF-8.До PHP 5.3.3 значение по умолчанию для параметра charset было ISO-8859-1.В этом случае символы кириллицы не могут быть преобразованы, поскольку набор символов ISO 8859-1 не содержит их.

UTF-8 и HTML-сущности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

UTF-8 и HTML-сущности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов