За такой задачей стоит довольно большая история.Лучше всего начать с просмотра Вопросов .
Общий совет, который я всегда даю, состоит в том, что если у вас есть какой-то строго ограниченный домен, в котором вы знаете обо всех вещах, которые могут быть упомянуты, и обо всех способах их взаимодействия, то вы, вероятно, сможете добиться успеха.Если это больше проблема «открытого мира», тогда будет чрезвычайно трудно придумать что-то, что работает приемлемо.
Задача извлечения отношений из естественного языка называется «извлечение отношений» (как ни странно)) а иногда факт добычи.Это довольно большая область исследований, этот парень защитил кандидатскую диссертацию, как и многие другие.Как вы заметили, здесь существует множество проблем, таких как обнаружение сущностей, разрешение анафоры и т. Д. Это означает, что, вероятно, будет много «шума» в сущностях и отношениях, которые вы извлекаете.
Что касается представления фактов, которые были извлечены из базы знаний, большинство людей, как правило, не используют вероятностные рамки.На простейшем уровне сущности и отношения хранятся в виде троек в плоской таблице.Другой подход состоит в том, чтобы использовать онтологию, чтобы добавить структуру и позволить аргументировать факты.Это делает базу знаний гораздо более полезной, но добавляет много проблем с масштабируемостью.Что касается добавления вероятностей, я знаю о проекте Prowl , который нацелен на создание вероятностной онтологии, но он не выглядит для меня слишком зрелым.
Существует некоторое исследование вероятностных реляционныхмоделирование, в основном в Марковских логических сетях в Вашингтонском университете и вероятностных реляционных моделях в Стэнфорде и других местах.Я немного не в курсе этой области, но это сложная проблема, и, насколько я знаю, это все исследования на ранней стадии.Есть много проблем, в основном связанных с эффективным и масштабируемым выводом.
В общем, это хорошая идея и очень разумная вещь, которую нужно делать.Тем не менее, это также очень трудно достичь.Если вы хотите взглянуть на изящный пример современного уровня техники (то есть, что возможно с кучей людей и денег), можете проверить PowerSet .