Там нет общего, почему извлечь
информация из каждого формата файла.
Вам нужно знать формат, чтобы знать
как извлечь информацию.
Просто хотел заявить об этом первым. Поэтому вам нужно искать библиотеки и программы, которые могут преобразовывать / извлекать нужную вам информацию. И, как упомянул Ofir MicroSoft, для этого есть инструменты для их форматов.
Но если вы не можете сделать это и хотите воспользоваться шансом, что в файле есть текст, который вы считаете интересным для чтения, вы можете выполнить обычное чтение и найти последовательности байтов, которые будут создавать текст. Затем возникает вопрос, какие языки / кодировку я должен поддерживать при поиске текста. Это многобайтовый текст?
Простое начало - циклически просматривать данные и искать последовательности [a-zA-z0-9_-], чтобы найти текст. Но слово, вероятно, многобайтовое. Таким образом, вы должны отсканировать двойной байт как один символ.
Примечание : некоторые новые форматы, такие как open office и docx, представляют собой несколько файлов в сжатом контейнере. Поэтому сначала необходимо распаковать файл и отсканировать документы XML после текста, который вы ищете.