трехсторонние
Звучит так, как будто вы хотите определить составляющие предложения , которые представляют собой группы слов, которые действуют как единое целое в соответствии с грамматикой языка.
Фактически, когда лингвистика пытается обнаружить грамматику языка, она делает это частично, наблюдая за движением . Как и в вашем примере, именно здесь группа слов может быть перемещена в другую позицию в предложении, сохраняя при этом значение предложения.
Составляющие могут быть отдельными словами, фразами или даже более крупными группами, такими как целые предложения. Внутри предложения они имеют вложенную иерархическую структуру. Например, первое примерное предложение, которое вы дали, можно проанализировать как:
(S (PP (IN On) (NP (NNP March) (CD 1)))
(NP (PRP he))
(VP (VBD was) (VP (VBN born))))
Целое предложение состоит из предложной фразы , за которой следует существительная фраза , а затем глагольная фраза . Фраза предложения может быть далее разложена на единицу, состоящую из одного слова «On», за которым следует именная фраза.
Парсеры структуры фраз
Для автоматического поиска составляющих, вы, вероятно, захотите использовать синтаксический анализатор структуры фразы . Существует множество таких парсетов на выбор, которые доступны с открытым исходным кодом, в том числе:
Парсеры Stanford и Berkeley, вероятно, наиболее просты в установке и использовании. Как видно из Cer et al. 2010 , самые точные парсеры - это Berkeley и Charniak. Парсер Bikel медленнее и менее точен, чем другие.
Демонстрационная версия
Онлайн-демо для парсера из Стэнфорда здесь . Я использовал демонстрацию, чтобы произвести синтаксический анализ, приведенный выше вашего примера предложения.
Примечание об удалении
В каждом компоненте будет заголовочное слово . Например, возьмите существительное:
(NP (DT The) (JJ big) (JJ blue) (NN ball))
Головным словом здесь является существительное ball
, и оно изменяется прилагательными big
и blue
. Если бы эта существительная фраза была встроена в предложение, вы могли бы удалить эти модификаторы и при этом иметь что-то, что соответствовало бы, но менее конкретно, значению исходного предложения.
В фразе существительного вы обычно можете удалять прилагательные, существительные, которые не являются головными, и вложенные предлогические фразы.
Внутри фраз глагола и полных предложений все становится более хитрым, поскольку удаление материала, который серверы в качестве аргумента для глагола могут полностью изменить интерпретацию предложения. Например, удаление the book
из He sold Jim the book
приводит к He sold Jim
.