У меня есть большая коллекция документов MSWord (около 40 000), которые являются результатами почтовых рассылок (один и тот же основной документ, разные источники данных).
Одним из полей слияния является текстовое поле, которое может иметь текст «Да» или «Нет».
Есть ли простой способ перечислить, для какого из документов в этом поле слияния установлено значение "Да"? (Я ожидаю приблизительно 10 000 документов "Да".)
Меня заинтересует любой подход, будь то использование самого Word, автоматизации Office, шестнадцатеричное копирование двоичных файлов и поиск определенных магических эффектов или любые готовые инструменты (сценарии perl, приложения .NET и т. Д.), Которые могут это сделать такие вещи.
Файлы находятся в общем сетевом ресурсе, доступном как с Linux, так и с Windows (и я, возможно, смогу украсть Mac на некоторое время, если необходимо), так что я не слишком беспокоюсь о том, на какой платформе работают инструменты ...