Разбор содержимого документа Word с использованием dot net или Java - PullRequest
0 голосов
/ 01 июня 2011


Я надеялся, что кто-нибудь сможет помочь с анализом MS Word. В основном мне нужно проанализировать содержимое документа Word и использовать полученное значение для формирования карты. На самом деле Word будет иметь такой контент:

Key1: Value1
Key2: Value2
KeyKey1: Key11: Value11
         Key12: Value12
KeyKey2:
  Key21: Value21
  Key22: Value22

Документ будет содержать пары таблиц или ключ-значение (также ключ-ключ-значение). Нам нужно идентифицировать или дифференцировать ключ и ключ и нужно проанализировать документ и вставить его в карту. В настоящее время я смотрю на ручной анализ, который выглядит как слишком жесткое кодирование значений. например, как отличить key1 от keykey1 и key1 от keykey2 ..
Пожалуйста, предложите какой-нибудь метод для анализа содержимого текстового документа или библиотек для анализа в C # или Java.

Любая помощь будет оценена. Заранее спасибо.

Ответы [ 3 ]

1 голос
/ 01 июня 2011

На данный момент лучшей библиотекой является Apache tika, которая делает то же самое. Он поддерживает несколько типов документов и включает в себя написание всего нескольких строк кода. Вы можете прочитать эту статью http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika и если вы игнорируете код, связанный с solr, то для извлечения содержимого PDF требуется всего 5-6 строк кода.

1 голос
/ 01 июня 2011

Вам нужно посмотреть на содержание документа?Для этого вы можете использовать Apache POI с Java.Мы используем его в нашем приложении без проблем.Мы оба читаем и пишем в / из документов Word и Excel.Документация очень полная, а API довольно простой.

0 голосов
/ 01 июня 2011

Вы можете взглянуть на Java API для документов Microsoft для разбора документа Word в Java.

...