Лемматизация немецких текстов с помощью Textblob-de - PullRequest
0 голосов
/ 25 июня 2019

Textblob-de является немецким расширением Textblob и задокументировано в https://textblob -de.readthedocs.io / en / latest / #

Я хочу лемматизировать немецкие слова, такие как hast -> haben, Häuser -> Haus with Textblob-de

Я нашел этот пост от Дж. Шнайдера о различных методах лемматизации в Python, адаптированном для английского языка, который также включает в себя часть о Textblob (английская версия): https://www.machinelearningplus.com/nlp/lemmatization-examples-python/

Интересно, есть ли возможность использовать лемматизацию и в немецком расширении?

После текста Дж. Шнайдера лемматизация должна быть возможна со следующими строками

from textblob_de import TextBlobDE, Word
word = 'hast Häuser'
w = Word(word)
w.lemmatize()

Я получаю следующую NotImplementedError:

NotImplementedError                       Traceback (most recent call last)
<ipython-input-5-16cfb68c1c58> in <module>
      2 word = 'hast Häuser'
      3 w = Word(word)
----> 4 w.lemmatize()

/anaconda3/lib/python3.7/site-packages/textblob/decorators.py in decorated(*args, **kwargs)
     33     def decorated(*args, **kwargs):
     34         try:
---> 35             return func(*args, **kwargs)
     36         except LookupError as err:
     37             print(err)

/anaconda3/lib/python3.7/site-packages/textblob_de/blob.py in lemmatize(self, pos)
    161         #lemmatizer = nltk.stem.WordNetLemmatizer()
    162         # return lemmatizer.lemmatize(self.string, pos)
--> 163         raise NotImplementedError
    164 
    165     @cached_property

NotImplementedError: 

Я ожидаю вывод как:

haben Haus

1 Ответ

0 голосов
/ 25 июня 2019

Попробуйте следующий код:

from textblob_de import TextBlobDE

word = 'hast Häuser'
w = TextBlobDE(word)
print(w.words.lemmatize())

вывод:

['hast', 'Häuser']

Для получения дополнительной информации о поддержке немецкого языка для TextBlob, пожалуйста, отметьте this .

...