Я пытаюсь использовать NLTK, чтобы сделать несколько простых примеров как чанкинга, так и чинкинга. У меня проблема в том, что ни один из моих сложных примеров не работает, то есть ничто не исключается из вывода синтаксического анализатора.
В общем, что я хочу получить в результате: «Счета, порты и иммиграция, Brownback»
Я хочу исключить все остальное. Кроме того, я не могу сказать, позволяет ли изменяющийся RE включать статические строки, а также теги, поскольку ни один из примеров, которые я видел, не включает это. Например, я могу это сделать?
} SomeString {
Я пробовал несколько разных RE в чихающем выражении, но ни один из них, кажется, ничего не исключает.
Вот код.
data = 'Bills on ports and immigration were submitted by Senator Brownback, Republican of Kansas.'
#pre-process the text
words = nltk.tokenize.word_tokenize(data)
pos_tags = nltk.pos_tag(words)
#print (pos_tags)
# Now we want what bill was submitted, and who submitted it.
chunk = r""" Chunk: {<.*>}
}<VBD>+<IN>{
}<IN><NNP>\${
"""
chunk_parser = nltk.RegexpParser(chunk)
print (chunk_parser)
chunked_data = chunk_parser.parse(pos_tags)
print (chunked_data)
Любая помощь приветствуется.
Спасибо