Эффективная структура данных на естественном языке, постоянство и запросы - PullRequest
2 голосов
/ 21 июня 2010

Для использования в веб-приложении для изучения языка, знаете ли вы о структурах данных и базовой схеме / макете базы данных, которые позволили бы эффективно хранить, обрабатывать и запрашивать предложения, глаголы, существительные и т. Д. Для различных естественных языков? Например, я хотел бы хранить каждый глагол только один раз и связывать предложения с объектом глагола и т. Д.

Я сталкивался с конкретными синтаксическими деревьями , и я думаю об использовании абстрактного класса Node, производного от него класса Noun и т. Д. Не будет ли синтаксическая древовидная структура слишком строгой?

Я понимаю, что это довольно широкий вопрос, и я не ожидаю, что вы сделаете мою «домашнюю работу», но если бы вы могли указать мне на какие-либо ресурсы, о которых вы знаете, это могло бы помочь мне начать, что было бы очень признательно.

Спасибо

Мартейн

1 Ответ

2 голосов
/ 21 июня 2010

Ваш пример выглядит довольно солидно с точки зрения манипулирования естественным языком / предложениями.

О других параметрах .. для текстового поиска / хранения вы можете взглянуть на Дерево Патриции . Есть реализация этого в Java на коде Google .

Также вы рассматривали возможность использования одного из существующих решений, таких как Hunspell , Lucene или Sphinx ?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...