Разбор структурированных документов в Java - PullRequest
2 голосов
/ 15 апреля 2011

Я хотел бы разобрать некоторые юридические документы с библиотекой Java на фрагменты текста, представляющие заголовки, абзацы и т. Д. Юридические документы обычно хорошо структурированы, поэтому я хотел бы использовать что-то немного проще, чем JavaCC (или другой синтаксический анализатор). генераторы). Есть ли какие-либо, которые позволили бы (почти) автоматически обнаружить такую ​​структуру?

Спасибо.

Ответы [ 2 ]

2 голосов
/ 15 апреля 2011

Я думаю, что нет инструмента, который может "почти автоматически" извлекать такие структуры.Если действительно легко извлечь структуру, вам не понадобится какой-либо инструмент, вы можете легко написать ее самостоятельно.Если это не так просто, вам нужен достаточно мощный инструмент (JavaCC, ANTLR ...).

Я думаю, что анализ текста с помощью собственного кода - лучший способ.Может быть, прочитайте заранее немного о разборе (рекурсивный приличный, разделение лексера / парсера ...).Для простых конструкций несложно быстро получить рабочее решение.

0 голосов
/ 15 апреля 2011

Apache POI - API Java для документов Microsoft Apache PDFBox - Java PDF Library

проще будет Apache Tika - инструментарий анализа контента, инструментарий для обнаружения и извлечения метаданных и структурированного текстового содержимого из различных документов с использованием существующих библиотек синтаксического анализатора.

он использует pdfbox и poi для внутреннего использования

использование: java -jar tika-app-0.9.jar [опция] [файл] -t

проанализирует файлы, указанные на командная строка и вывод извлеченного текстового содержимого

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...