У меня есть друг, который пишет 400-страничную книгу в Microsoft Word 2007.
На протяжении всей книги у него есть 200 историй , каждая из которых состоит из многочисленных абзацев.
Когда он закончит написание книги, он хочет скопировать текст каждого рассказа, встроенного в его документ Word, в таблицу базы данных , например:
Title, varchar(200)
Description, text
Content, text
Мы не хотим копировать и вставлять каждую статью в базу данных, но хотим, чтобы программа автоматически извлекала размеченные данные из файла Word в соответствующие поля в базе данных.
Что он должен делать в Microsoft Word, чтобы обозначал каждую группу абзацев как «содержание рассказа», а каждый заголовок - как «заголовок рассказа» и т. Д. Предварительное условие - эта разметка не может быть видимым в документе. Я знаю, что файлы Word 2007 в основном представляют собой сжатые файлы XML, поэтому я предполагаю, что это возможно, и я предполагаю, что таблицы стилей - это то, что нам нужно, но как мне нужно подготовить документ Word точно так, чтобы по мере добавления историй они правильно размечены?
Я предполагаю, что новые функции COM Interop в C # 4.0 - это то, что мне нужно для анализа файла Word и извлечения только заголовка, описания и контента из встроенных историй, но как это сделать? Я делаю это технически? У кого-нибудь есть примеры?
Есть ли у кого-нибудь опыт выполнения такого проекта (чтение Microsoft Word как файл семантических данных), которым они могли бы поделиться?