Question

Я хотел бы разобрать некоторые юридические документы с библиотекой Java на фрагменты текста, представляющие заголовки, абзацы и т. Д. Юридические документы обычно хорошо структурированы, поэтому я хотел бы использовать что-то немного проще, чем JavaCC (или другой синтаксический анализатор). генераторы). Есть ли какие-либо, которые позволили бы (почти) автоматически обнаружить такую структуру?

Спасибо.

Arne Deutsch · Answer 1 · 15 апреля 2011

Я думаю, что нет инструмента, который может "почти автоматически" извлекать такие структуры.Если действительно легко извлечь структуру, вам не понадобится какой-либо инструмент, вы можете легко написать ее самостоятельно.Если это не так просто, вам нужен достаточно мощный инструмент (JavaCC, ANTLR ...).

Я думаю, что анализ текста с помощью собственного кода - лучший способ.Может быть, прочитайте заранее немного о разборе (рекурсивный приличный, разделение лексера / парсера ...).Для простых конструкций несложно быстро получить рабочее решение.

zudokod · Answer 2 · 15 апреля 2011

Apache POI - API Java для документов Microsoft Apache PDFBox - Java PDF Library

проще будет Apache Tika - инструментарий анализа контента, инструментарий для обнаружения и извлечения метаданных и структурированного текстового содержимого из различных документов с использованием существующих библиотек синтаксического анализатора.

он использует pdfbox и poi для внутреннего использования

использование: java -jar tika-app-0.9.jar [опция] [файл] -t

проанализирует файлы, указанные на командная строка и вывод извлеченного текстового содержимого

Разбор структурированных документов в Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разбор структурированных документов в Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов