Возникли проблемы с корректировкой работы в НЛТК. - PullRequest
0 голосов
/ 08 ноября 2018

Я пытаюсь использовать NLTK, чтобы сделать несколько простых примеров как чанкинга, так и чинкинга. У меня проблема в том, что ни один из моих сложных примеров не работает, то есть ничто не исключается из вывода синтаксического анализатора.
В общем, что я хочу получить в результате: «Счета, порты и иммиграция, Brownback» Я хочу исключить все остальное. Кроме того, я не могу сказать, позволяет ли изменяющийся RE включать статические строки, а также теги, поскольку ни один из примеров, которые я видел, не включает это. Например, я могу это сделать? } SomeString {

Я пробовал несколько разных RE в чихающем выражении, но ни один из них, кажется, ничего не исключает.

Вот код.

data = 'Bills on ports and immigration were submitted by Senator Brownback, Republican of Kansas.'

#pre-process the text
words = nltk.tokenize.word_tokenize(data)
pos_tags = nltk.pos_tag(words)
#print (pos_tags)


# Now we want what bill was submitted, and who submitted it. 

chunk = r""" Chunk: {<.*>}
                     }<VBD>+<IN>{
                     }<IN><NNP>\${
        """
chunk_parser = nltk.RegexpParser(chunk)
print (chunk_parser)
chunked_data = chunk_parser.parse(pos_tags)
print (chunked_data)

Любая помощь приветствуется.

Спасибо

...