Question

Я хочу провести анализ текста на французских текстах, чтобы визуализировать сходство между этими текстами, возможный класс зависит от используемых слов.Я прошу вашей помощи, потому что я только начал работать с Python и хотел бы узнать, как лучше всего провести анализ текста на Python, учитывая, что мои тексты написаны на французском языке?

Существуют ли библиотеки специальнопредназначен для французских текстов? Используется для очистки данных и последующего анализа данных.

Я уже могу:

Очистить: удалены все специальные символы,поместите каждое слово в нижний регистр и подавьте STOPWORDS
Tag: Это не оптимально для французских слов (проверенные библиотеки: StanfordPostagger, Tag.pos de NLTK).
Lemmatize: Не оптимально (-) сфранцузские слова (FrenchLefffLemmatizer, WordNetLemmatizer)
Stemming: FrenchStemmer snowball

Что я не могу сделать с французскими словами: перейти к единственному, передать глаголы в инфинитивную форму...

Corentin Limier · Answer 1 · 28 мая 2019

Библиотека Spacy и инструмент Treetagger (который можно использовать через библиотеку treetaggerwrapper) имеют хорошую поддержку французского языка.

Пример использования spacy :

import spacy
nlp_fr = spacy.load('fr_core_news_sm')
text = "J'ai mangé des pommes hier"
tokens = nlp_fr(text)
for token in tokens:
    print(token.lemma_)

Печать:

je
avoir
manger
un
pomme
hier

Treetagger сложнее установить, но этот может вам помочь, а здесь - документация оболочки Python.

Каков наилучший способ анализа французского текста в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Каков наилучший способ анализа французского текста в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы