Чтение двоичных документов Word потребует создания анализатора в соответствии с опубликованными спецификациями формата файла для формата DOC. Я думаю, что это не реально выполнимое решение.
Вы можете использовать форматы Microsoft Office XML для чтения и записи файлов Word - это совместимо с версией Word 2003 и 2007 годов. Для чтения вы должны убедиться, что документы Word сохранены в правильном формате (это называется XML-документ Word 2003 в Word 2007). Для написания вы просто должны следовать открыто доступной XML-схеме. Я никогда не использовал этот формат для записи документов Office из PHP, но я использую его для чтения на листе Excel (естественно сохраненного как XML-Spreadsheet 2003) и отображения его данных на веб-странице. Поскольку файлы представляют собой просто данные XML, нет проблем перемещаться по ним и выяснять, как извлечь нужные данные.
Другой вариант - вариант только для Word 2007 (если форматы файлов OpenXML не установлены в вашем Word 2003) - состоит в том, чтобы пересортировать в OpenXML . Как указывает databyss здесь , формат файла DOCX представляет собой просто ZIP-архив с включенными файлами XML. На MSDN имеется множество ресурсов, касающихся формата файлов OpenXML, поэтому вы сможете понять, как читать нужные вам данные. Я думаю, что писать будет намного сложнее - все зависит от того, сколько времени вы потратите.
Возможно, вы можете взглянуть на PHPExcel , которая является библиотекой, способной записывать в файлы Excel 2007 и читать из файлов Excel 2007 с использованием стандарта OpenXML. Вы можете получить представление о проделанной работе при попытке читать и писать документы OpenXML Word.