Мне нужно разобрать и обработать большой набор частично структурированного текста (в основном, юридические документы - тексты законов, дополнения к ним, договоры, решения судей, ...). Самое фундаментальное, что я пытаюсь сделать, - это извлечь информацию о том, как структурированы подразделы - главы, статьи, подзаголовки, ... плюс некоторые метаданные. Мой вопрос заключается в том, может ли кто-нибудь указать мне на отправную точку для этого типа обработки текста, потому что я уверен, что было проведено много исследований по этому вопросу, но я обнаружил, что в основном это либо анализ чего-либо со строгой грамматикой (например, кодом) или полностью произвольный текст (как Google пытается сделать на веб-страницах). Я думаю, что если я получу правильные ключевые слова, у меня будет больше успеха в Google и моих журнальных базах данных. Спасибо.