Я сделал что-то похожее для моей M.Sc. дипломная работа - изучение правил CFG (без вероятностей)
используя частичную грамматику и маркировку POS.
Пожалуйста, смотрите мой ответ на этот вопрос для получения списка ссылок на изучение PCFG.
Одним из подходов является изучение лексических грамматик, которые включают информацию о словах вместе с именем узла.
Трудно ответить на ваш вопрос без контекста: что вы считаете хорошим алгоритмом?
Тот, который дает достаточно хорошую языковую модель? Что сводит к минимуму статистическую меру? Это достаточно эффективно?
Учитывая богатую морфологию арабского языка, возможно, вы можете добавить морфологию к своей грамматике - например, добавьте в него функции гендерного и числового соглашения.