Я однажды сделал экстрактор docx, и это было очень просто. В основном docx и другие (новые) форматы, которые я предполагаю, представляют собой zip-файл с набором XML-файлов. Текст можно извлечь, используя XmlReader и используя только .NET-классы.
Кажется, у меня больше нет кода :(, но я нашел парня, у которого есть подобное решение .
Возможно, это не подходит для вас, если вам нужно читать файлы .doc и .xls, поскольку они представляют собой двоичные форматы и, вероятно, их намного сложнее разобрать.
Существует также OpenXML SDK , все еще в CTP, выпущенный Microsoft.