Я бы предложил следующий код на этой странице здесь
Суть в том, что вы читаете его с помощью объекта Word.ApplicationClass (Microsoft.Interop.Word), хотя то, где он получает объект "Doc", мне не подходит. Я предполагаю, что вы создаете его с помощью ApplicationClass.
РЕДАКТИРОВАТЬ: документ извлекается, вызывая это:
Word.Document doc = wordApp.Documents.Open(ref file, ref nullobj, ref nullobj,
ref nullobj, ref nullobj, ref nullobj,
ref nullobj, ref nullobj, ref nullobj,
ref nullobj, ref nullobj, ref nullobj);
К сожалению, форматирование кода на странице, на которую я ссылался, было нелегким делом.
РЕДАКТИРОВАТЬ2: Оттуда вы можете просматривать абзацы документа, однако, насколько я вижу, нет возможности циклически проходить по строкам. Я бы предложил использовать какое-то сопоставление с образцом, чтобы найти разрывы строк.
Чтобы извлечь текст из абзаца, используйте Word.Paragraph.Range .Text , это вернет весь текст внутри абзаца. Затем вы должны искать символы перевода строки. Я бы использовал string.IndexOf () .
В качестве альтернативы, если по строкам вы хотите извлечь по одному предложению за раз, вы можете просто перебрать Range.Sentences