Question

Мне нужно использовать библиотеку Java - или код - для извлечения тегов полей из содержимого документа ODT.Я знаю, что odt - это какой-то zip-файл, и его содержимое содержится в файле content.xml.Конечно, я мог бы просто извлечь файлы, открыть content.xml и разобрать его, но я считаю, что существует некоторый код более высокого уровня.Например, содержимое выглядит следующим образом:

<text:p text:style-name="Standard">Hi ${name}!</text:p>    
<text:p text:style-name="Standard">
<text:text-input text:description="JOOScript">$nome</text:text-input></text:p>

Я бы хотел извлечь поля как $ {name} и $ nome.

Я знаю, что Apache Tika можно использовать дляэто, но я не заметил пример, который на самом деле показывает извлечение поля.Я полагаю, это потому, что поля, которые я использую, представляют собой неструктурированный текст вместо тегов полей ввода.

Заранее спасибо, Даниэль

dannyxyz22 · Answer 1 · 03 апреля 2012

Ну, на всякий случай, если кому-то будет интересно, мы в конечном итоге использовали Apache Tika для получения контента из odt и проанализировали его, используя следующее регулярное выражение:

\$\{[\w\-\.]*\}

Извлечение полей из документа ODT с использованием библиотеки Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение полей из документа ODT с использованием библиотеки Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы