Нахождение значимых под-предложений из предложения - PullRequest
13 голосов
/ 23 января 2012

Есть ли способ найти все вложенные предложения предложения, которые все еще имеют смысл и содержат хотя бы один предмет, глагол и предикат / объект?

Например, если у нас естьпредложение типа «Я собираюсь провести семинар по НЛП на SXSW в Остине в следующем месяце».Из этого предложения мы можем извлечь следующие значимые подпункты: «Я собираюсь провести семинар», «Я собираюсь провести семинар по НЛП», «Я собираюсь провести семинар по НЛП в SXSW», «Я собираюсь провести семинар в SXSW »,« Я собираюсь сделать семинар в Остине »,« Я собираюсь провести семинар по НЛП в следующем месяце »и т. Д.

Обратите внимание, что естьздесь нет выводимых предложений (например, «в следующем месяце на SXSW будет семинар по НЛП». Хотя это и правда, нам это не нужно, как часть этой проблемы).Все сгенерированные предложения строго являются частью данного предложения.

Как мы можем подойти к решению этой проблемы?Я думал о создании аннотированных обучающих данных, в которых есть набор юридических предложений для каждого предложения в наборе обучающих данных.А затем напишите какой-нибудь контролируемый (ые) алгоритм (ы) обучения для создания модели.

Я довольно новичок в НЛП и машинном обучении, поэтому было бы здорово, если бы вы, ребята, могли предложить несколько способов решения этой проблемы.

Ответы [ 4 ]

10 голосов
/ 24 января 2012

Вы можете использовать анализатор зависимостей, предоставляемый Stanford CoreNLP .Свернутый вывод вашего предложения будет выглядеть ниже.

nsubj(going-3, I-1)
xsubj(do-5, I-1)
aux(going-3, am-2)
root(ROOT-0, going-3)
aux(do-5, to-4)
xcomp(going-3, do-5)
det(seminar-7, a-6)
dobj(do-5, seminar-7)
prep_on(seminar-7, NLP-9)
prep_at(do-5, -11)
prep_in(do-5, Austin-13)
amod(month-15, next-14)
tmod(do-5, month-15)

Последние 5 выводимых вами предложений являются необязательными.Вы можете удалить одну или несколько частей, которые не являются необходимыми для вашего предложения.
Большинство этих дополнительных частей относятся к предлогам и модификаторам, например: prep_in, prep_do, advmod, tmod и т. Д. .См. Руководство по зависимостям Стэнфорда .

Например, если вы удалите все модификаторы из вывода, вы получите

Я собираюсь провести семинар по НЛП в SXSW в Остине.

6 голосов
/ 24 января 2012

Есть статья под названием "Использование дискурсивных обязательств для распознавания текстового влечения" Хикла и др., В которой обсуждается извлечение дискурсивных обязательств (под-предложений). Статья включает в себя описание их алгоритма, который на каком-то уровне оперирует правилами. Они использовали его для RTE, и на выходе могут быть минимальные уровни удержания. Упрощение текста, возможно, связанная с этим область.

5 голосов
/ 10 июля 2013

Следующая статья http://www.mpi -inf.mpg.de / ~ rgemulla / publishing / delcorro13clausie.pdf обрабатывает зависимости из анализатора Stanford и создает простые предложения (упрощение текста).

См. Онлайн-демонстрацию - https://d5gate.ag5.mpi -sb.mpg.de / ClausIEGate / ClausIEGate

2 голосов
/ 23 января 2012

Один подход будет с парсером, таким как PCFG.Попытка просто обучить модель обнаружению «субстанций», скорее всего, пострадает от нехватки данных.Кроме того, я сомневаюсь, что вы могли бы написать действительно чистое и однозначное определение субстанции, и если вы не можете определить ее, вы не можете заставить аннотаторы аннотировать ее.

...