Есть ли способ найти все вложенные предложения предложения, которые все еще имеют смысл и содержат хотя бы один предмет, глагол и предикат / объект?
Например, если у нас естьпредложение типа «Я собираюсь провести семинар по НЛП на SXSW в Остине в следующем месяце».Из этого предложения мы можем извлечь следующие значимые подпункты: «Я собираюсь провести семинар», «Я собираюсь провести семинар по НЛП», «Я собираюсь провести семинар по НЛП в SXSW», «Я собираюсь провести семинар в SXSW »,« Я собираюсь сделать семинар в Остине »,« Я собираюсь провести семинар по НЛП в следующем месяце »и т. Д.
Обратите внимание, что естьздесь нет выводимых предложений (например, «в следующем месяце на SXSW будет семинар по НЛП». Хотя это и правда, нам это не нужно, как часть этой проблемы).Все сгенерированные предложения строго являются частью данного предложения.
Как мы можем подойти к решению этой проблемы?Я думал о создании аннотированных обучающих данных, в которых есть набор юридических предложений для каждого предложения в наборе обучающих данных.А затем напишите какой-нибудь контролируемый (ые) алгоритм (ы) обучения для создания модели.
Я довольно новичок в НЛП и машинном обучении, поэтому было бы здорово, если бы вы, ребята, могли предложить несколько способов решения этой проблемы.