Чтение PHP "Unicode" MS Word doc - PullRequest
       12

Чтение PHP "Unicode" MS Word doc

0 голосов
/ 07 августа 2011

Я пытаюсь прочитать какой-нибудь MS Word Doc на PHP, который написан на Unicode, например, иврит или арабский.но он читает в двоичном виде и превращается в некоторые несценовые символы.Я погуглил некоторые примеры кодов, но ни один из них не работал должным образом, есть ли у вас опыт работы с документами Unicode, такими как арабский и иврит?спасибо

1 Ответ

1 голос
/ 07 августа 2011

Одним из недостатков PHP является то, что (по крайней мере, до недавнего времени) он не знал Unicode. Вы обычно соглашаетесь с этим, просто игнорируя тот факт, что вы читаете, - это Unicode и надеясь, что веб-браузер, в котором находится ваш документ, знает, как работать с Unicode. PHP ничего не разрушает, ему просто все равно.

В зависимости от того, что вы пытаетесь сделать, в PHP есть несколько дополнений, которые позволяют улучшить обработку Unicode. Среди них строковые функции mb_, которые справляются с многобайтовыми строками.

Вам также необходимо выяснить, как текст закодирован в документе Word. Unicode поддерживает множество форматов, самый популярный и самый компактный из которых UTF-8, но есть также UTF-16 и UTF-32.

...