Начальная точка обработки естественного языка / анализа структуры текста - PullRequest
1 голос
/ 31 августа 2009

Мне нужно разобрать и обработать большой набор частично структурированного текста (в основном, юридические документы - тексты законов, дополнения к ним, договоры, решения судей, ...). Самое фундаментальное, что я пытаюсь сделать, - это извлечь информацию о том, как структурированы подразделы - главы, статьи, подзаголовки, ... плюс некоторые метаданные. Мой вопрос заключается в том, может ли кто-нибудь указать мне на отправную точку для этого типа обработки текста, потому что я уверен, что было проведено много исследований по этому вопросу, но я обнаружил, что в основном это либо анализ чего-либо со строгой грамматикой (например, кодом) или полностью произвольный текст (как Google пытается сделать на веб-страницах). Я думаю, что если я получу правильные ключевые слова, у меня будет больше успеха в Google и моих журнальных базах данных. Спасибо.

Ответы [ 2 ]

1 голос
/ 31 августа 2009

инструментарий естественного языка может быть интересным началом и имеет множество ресурсов по всем областям обработки естественного языка. Это, вероятно, более лингвистически сфокусировано, чем вам нужно.

Другой вариант - воспользоваться некоторой библиотекой генератора синтаксических анализаторов (обычно используемой для кода), которая не является настолько строгой (т. Е. Позволяет игнорировать большие фрагменты текста при необходимости). В Python я бы порекомендовал pyparsing . В другом ответе я показал простой пример того, что он может делать, когда вы хотите игнорировать произвольные фрагменты текста.

0 голосов
/ 31 августа 2009

Никогда раньше этого не делал, но если бы я собирался, я бы определенно посмотрел на ANTLR . Это довольно популярный проект, и вполне может иметь порт на выбранном вами языке.

...