docx
файлы на самом деле просто контейнеры для XML документа. Вы должны быть в состоянии разархивировать файл docx, а затем перейти в папку word внутри, а затем в document.xml. Это фактический текст. Но такие вещи, как шрифты и стили, находятся в других XML-файлах в контейнере docx, так что вы, вероятно, захотите немного поэкспериментировать и выяснить, что именно и как сопоставить (начните с использования пространств имен, держу пари).
Но да, разархивируйте файл, а затем используйте simplexml, чтобы преобразовать его во что-то, с чем вы действительно можете возиться.