Одним из недостатков PHP является то, что (по крайней мере, до недавнего времени) он не знал Unicode. Вы обычно соглашаетесь с этим, просто игнорируя тот факт, что вы читаете, - это Unicode и надеясь, что веб-браузер, в котором находится ваш документ, знает, как работать с Unicode. PHP ничего не разрушает, ему просто все равно.
В зависимости от того, что вы пытаетесь сделать, в PHP есть несколько дополнений, которые позволяют улучшить обработку Unicode. Среди них строковые функции mb_
, которые справляются с многобайтовыми строками.
Вам также необходимо выяснить, как текст закодирован в документе Word. Unicode поддерживает множество форматов, самый популярный и самый компактный из которых UTF-8
, но есть также UTF-16
и UTF-32
.