Извлечение полей из документа ODT с использованием библиотеки Java - PullRequest
1 голос
/ 02 апреля 2012

Мне нужно использовать библиотеку Java - или код - для извлечения тегов полей из содержимого документа ODT.Я знаю, что odt - это какой-то zip-файл, и его содержимое содержится в файле content.xml.Конечно, я мог бы просто извлечь файлы, открыть content.xml и разобрать его, но я считаю, что существует некоторый код более высокого уровня.Например, содержимое выглядит следующим образом:

<text:p text:style-name="Standard">Hi ${name}!</text:p>    
<text:p text:style-name="Standard">
<text:text-input text:description="JOOScript">$nome</text:text-input></text:p>

Я бы хотел извлечь поля как $ {name} и $ nome.

Я знаю, что Apache Tika можно использовать дляэто, но я не заметил пример, который на самом деле показывает извлечение поля.Я полагаю, это потому, что поля, которые я использую, представляют собой неструктурированный текст вместо тегов полей ввода.

Заранее спасибо, Даниэль

1 Ответ

2 голосов
/ 03 апреля 2012

Ну, на всякий случай, если кому-то будет интересно, мы в конечном итоге использовали Apache Tika для получения контента из odt и проанализировали его, используя следующее регулярное выражение:

\$\{[\w\-\.]*\}
...