Неправильный ответ byy langdetect.detect - PullRequest
0 голосов
/ 04 декабря 2018

Я использую Nltk и Scikit Learn для обработки текста.У меня есть набор данных, содержащий предложения, которые некоторые из них объяснили ситуацию на французском и английском языках (французская часть дублирована), которые я хочу удалить французскую часть.Далее в одном из моих предложений:

"quipage de Global Express и провенанс от компании DORVAL AD DURVAL DEFVAL AD EUIZE WREME DIS GAZ SUR LA PISTE ПРИЧИНА ДА НЕТ ВОПРОСОВ С ПОМОЩЬЮ VoLES"Длительность и потребность в одежде. Снижение количества минут эксплуатации. Экипаж Global Express из Токио, Япония, в Дорваль вынужден был останавливаться на шоссе из-за проблемы с закрылками.Rwy Аварийные службы не запрашивались. Самолет приземлился без происшествий. Задержка около минуты на операции. Региональный отчет mdy с записью s "

Я хочу удалить все слова на французском языке.До сих пор я пробовал следующий код, но результат не достаточно хорош.

x=sentence
x=x.split()
import langdetect      
from langdetect import detect 
for word in x:
lang=langdetect.detect(word)
if lang=='fr':
    print(word)
    x.remove(word)

Вот мой вывод:

l
un
sur
une
oiseaux
avoir
un
le
du
un
est

Это хороший подход?как я могу улучшить его производительность, чтобы достичь лучших результатов.

1 Ответ

0 голосов
/ 04 декабря 2018

Для определения языка обычно требуется как минимум более длинное предложение, чтобы сделать достойную работу.Одного или двух коротких слов, вероятно, будет недостаточно.Подумайте о a в Dorval a d effectuer выше.a сам по себе французский или английский?Tokyo Французский?

Я бы еще раз проверил, может ли эта библиотека обрабатывать нестандартный французский язык (без акцентов, без апострофов, пропущенных букв и т. Д.), Которые есть в ваших данныхпроверяя, что библиотека обнаруживает для более длинных строк.Возможно, библиотека хороша только для того, чтобы выяснить, что более стандартный французский - это французский.Например, d'un problème против ваших данных: d un probl me.

См. Также этот вопрос для других подходов, в которых вы можете ограничить возможный набор языков: Язык Python: выберите один язык илитолько другое

...