Каков наилучший способ анализа французского текста в Python? - PullRequest
1 голос
/ 28 мая 2019

Я хочу провести анализ текста на французских текстах, чтобы визуализировать сходство между этими текстами, возможный класс зависит от используемых слов.Я прошу вашей помощи, потому что я только начал работать с Python и хотел бы узнать, как лучше всего провести анализ текста на Python, учитывая, что мои тексты написаны на французском языке?

Существуют ли библиотеки специальнопредназначен для французских текстов? Используется для очистки данных и последующего анализа данных.

Я уже могу:

  • Очистить: удалены все специальные символы,поместите каждое слово в нижний регистр и подавьте STOPWORDS
  • Tag: Это не оптимально для французских слов (проверенные библиотеки: StanfordPostagger, Tag.pos de NLTK).
  • Lemmatize: Не оптимально (-) сфранцузские слова (FrenchLefffLemmatizer, WordNetLemmatizer)
  • Stemming: FrenchStemmer snowball

Что я не могу сделать с французскими словами: перейти к единственному, передать глаголы в инфинитивную форму...

1 Ответ

0 голосов
/ 28 мая 2019

Библиотека Spacy и инструмент Treetagger (который можно использовать через библиотеку treetaggerwrapper) имеют хорошую поддержку французского языка.

Пример использования spacy :

import spacy
nlp_fr = spacy.load('fr_core_news_sm')
text = "J'ai mangé des pommes hier"
tokens = nlp_fr(text)
for token in tokens:
    print(token.lemma_)

Печать:

je
avoir
manger
un
pomme
hier

Treetagger сложнее установить, но этот может вам помочь, а здесь - документация оболочки Python.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...