Я работаю над этой задачей по обработке текста, которая включает в себя получение предложений с токенами и POS-тегами на испанском языке. Я написал код, который работает (следуя некоторым онлайн-учебникам), но POS-тег предназначен для английского языка и не соответствует тегам испанских слов. Итак, мой вопрос: как я могу дать команду python использовать модуль Spanish Cess?
Я уже импортировал токенайзер NLTK, pos_tag, pos_tag_sents и импорт из nltk.corpus cess_esp как cess
Я хотел бы использовать этот код, так как он сохраняет кортежи {token, POS}, но просто добавляет в него испанский pos-тег.
Буду очень признателен за любые отзывы.
Большое спасибо!
df['text']
tagger = cess
texts = df['text'].tolist()
tagged_texts = pos_tag_sents(map(word_tokenize, texts))
tagged_texts
df['POS'] = tagged_texts
pos_tag_sents( df['text'].apply(word_tokenize).tolist() )
df['POS'] = pos_tag_sents( df['text'].apply(word_tokenize).tolist() )