Я использую Nltk и Scikit Learn для обработки текста.У меня есть набор данных, содержащий предложения, которые некоторые из них объяснили ситуацию на французском и английском языках (французская часть дублирована), которые я хочу удалить французскую часть.Далее в одном из моих предложений:
"quipage de Global Express и провенанс от компании DORVAL AD DURVAL DEFVAL AD EUIZE WREME DIS GAZ SUR LA PISTE ПРИЧИНА ДА НЕТ ВОПРОСОВ С ПОМОЩЬЮ VoLES"Длительность и потребность в одежде. Снижение количества минут эксплуатации. Экипаж Global Express из Токио, Япония, в Дорваль вынужден был останавливаться на шоссе из-за проблемы с закрылками.Rwy Аварийные службы не запрашивались. Самолет приземлился без происшествий. Задержка около минуты на операции. Региональный отчет mdy с записью s "
Я хочу удалить все слова на французском языке.До сих пор я пробовал следующий код, но результат не достаточно хорош.
x=sentence
x=x.split()
import langdetect
from langdetect import detect
for word in x:
lang=langdetect.detect(word)
if lang=='fr':
print(word)
x.remove(word)
Вот мой вывод:
l
un
sur
une
oiseaux
avoir
un
le
du
un
est
Это хороший подход?как я могу улучшить его производительность, чтобы достичь лучших результатов.