Spanis POS tagger CESS, как я могу реализовать это в своем коде - PullRequest
0 голосов
/ 23 мая 2019

Я работаю над этой задачей по обработке текста, которая включает в себя получение предложений с токенами и POS-тегами на испанском языке. Я написал код, который работает (следуя некоторым онлайн-учебникам), но POS-тег предназначен для английского языка и не соответствует тегам испанских слов. Итак, мой вопрос: как я могу дать команду python использовать модуль Spanish Cess?

Я уже импортировал токенайзер NLTK, pos_tag, pos_tag_sents и импорт из nltk.corpus cess_esp как cess

Я хотел бы использовать этот код, так как он сохраняет кортежи {token, POS}, но просто добавляет в него испанский pos-тег. Буду очень признателен за любые отзывы. Большое спасибо!

df['text']
tagger = cess
texts = df['text'].tolist()
tagged_texts = pos_tag_sents(map(word_tokenize, texts))
tagged_texts
df['POS'] = tagged_texts
pos_tag_sents( df['text'].apply(word_tokenize).tolist() )
df['POS'] = pos_tag_sents( df['text'].apply(word_tokenize).tolist() ) 
...