Я хотел бы написать простой фрагмент кода, который извлекал бы только информацию тега из набора офисных (docx, pptx и т. Д.) Файлов, которые существуют в каталоге, чтобы его можно было легко проиндексировать и найти.
Когда я говорю «тег», я имею в виду информацию о теге, которую вы можете добавить в файл с Vista. Обычно это делается с помощью Explorer. Например, файл pptx на приведенном ниже снимке экрана имеет прикрепленный тег «bubble».

Но поиск по этим тегам уже встроен в Windows, говорите? Да, но мне это нужно только для индексации тегов, и мне нужно раскрывать информацию через интранет, а не внутри Windows.
Я обнаружил, что в пакете офисных файлов фактическая информация хранится в файле /docProps/core.xml в элементе cp: Keywords. И я понимаю, что в коде я могу разархивировать файл, получить доступ к этому файлу и извлечь то, что мне нужно. Однако я надеюсь, что где-то есть заранее подготовленное решение. Я серьезно сомневаюсь, что именно это делает Windows, чтобы проиндексировать ту же информацию (но, по общему признанию, я не могу найти никакой полезной информации по ней).
Я также нашел некоторые обсуждения о IFilters . И все же, это обращается к тексту файла. Я не вижу, где IFilter помогает решить эту конкретную проблему.
Кто-нибудь может указать мне правильное направление на этом?