Алгоритм построения CFG на естественном языке - PullRequest
1 голос
/ 12 сентября 2009

Я работаю в проекте по обработке естественного языка. Он направлен на создание библиотек для арабского языка. Мы работаем над POS-тэгером, и сейчас я думаю о грамматике. Поскольку арабский язык и многие другие имеют сложную грамматику, очень сложно построить их контекстно-свободную грамматику (CFG). По этой причине у меня возникла идея алгоритма построения CFG (с вероятностью PCFG) для любого языка из корпорации tagger с использованием обучения без присмотра. Для объяснения алгоритма предположим, что у меня есть три теговых оператора в качестве входных данных: 1- глагол существительное 2- Глагол Существительное Тема 3- Глагол Существительное Тема наречие Алгоритм дает: 1) A -> Глагол Существительное 2) B -> Предмет 3) C -> B наречие.
Мы повторяем эту методологию для каждого утверждения, так что мы можем закончить с конкретной PCFG. Основная сила алгоритма лежит вне факта просмотра всего утверждения, поэтому вероятности могут быть условными, и они являются конкретными. После этого можно применить алгоритм CKY, чтобы выбрать лучшее дерево для новых операторов с использованием вероятностей. Ожидаете ли вы, что этот алгоритм хорош или нет, и стоит ли продолжать его совершенствовать.

1 Ответ

1 голос
/ 12 сентября 2009

Я сделал что-то похожее для моей M.Sc. дипломная работа - изучение правил CFG (без вероятностей) используя частичную грамматику и маркировку POS. Пожалуйста, смотрите мой ответ на этот вопрос для получения списка ссылок на изучение PCFG. Одним из подходов является изучение лексических грамматик, которые включают информацию о словах вместе с именем узла.

Трудно ответить на ваш вопрос без контекста: что вы считаете хорошим алгоритмом? Тот, который дает достаточно хорошую языковую модель? Что сводит к минимуму статистическую меру? Это достаточно эффективно?

Учитывая богатую морфологию арабского языка, возможно, вы можете добавить морфологию к своей грамматике - например, добавьте в него функции гендерного и числового соглашения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...