Извлечение пункта из текста в формате Penn Treebank - PullRequest
4 голосов
/ 24 октября 2011

Скажите, что у меня есть предложение:

After he had eaten the cheese, Bill went to the grocery.

В моей программе я получаю следующий вывод:

---PARSE TREE---
(ROOT
  (S
    (SBAR (IN After)
      (S
        (NP (PRP he))
        (VP (VBD had)
          (VP (VBN eaten)
            (NP (DT the) (NN cheese))))))
    (, ,)
    (NP (NNP Bill))
    (VP (VBD went)
      (PP (TO to)
        (NP (DT the) (NN grocery))))
    (. .)))

Как мне объединить материал, не входящий в предложение, чтобы стать независимым предложением? Как это:

S Clause {
    SBAR Clause {
         After he had eaten the cheese,
    }

    S Clause {
        Bill went to the grocery.
    }
}

Я почти уверен, что мне неясно, но в основном я хочу извлечь независимые и зависимые пункты предложения и подпункты этих предложений.

1 Ответ

1 голос
/ 25 октября 2011

Вот демонстрационный код из руководства NLTK (он явно не показывает, как извлечь предложение): http://nltk.googlecode.com/svn/trunk/doc/howto/tree.html

...