Я хочу провести анализ текста на французских текстах, чтобы визуализировать сходство между этими текстами, возможный класс зависит от используемых слов.Я прошу вашей помощи, потому что я только начал работать с Python и хотел бы узнать, как лучше всего провести анализ текста на Python, учитывая, что мои тексты написаны на французском языке?
Существуют ли библиотеки специальнопредназначен для французских текстов? Используется для очистки данных и последующего анализа данных.
Я уже могу:
- Очистить: удалены все специальные символы,поместите каждое слово в нижний регистр и подавьте STOPWORDS
- Tag: Это не оптимально для французских слов (проверенные библиотеки: StanfordPostagger, Tag.pos de NLTK).
- Lemmatize: Не оптимально (-) сфранцузские слова (FrenchLefffLemmatizer, WordNetLemmatizer)
- Stemming: FrenchStemmer snowball
Что я не могу сделать с французскими словами: перейти к единственному, передать глаголы в инфинитивную форму...