Я пытаюсь определить язык из многоязычного текстового файла, расположенного на моем компьютере. Мне нужно обнаружить и напечатать результат, например: السلام عليكم ورحمة الله язык: арабский. Привет, как дела? меня зовут Али язык: английский. Моя митва куулуу? Нимени на али язык: финский. Пожалуйста, помогите
Я пытаюсь этот код:
from nltk.corpus import *
def lang_ratio(input):
lang_ratio = {}
tokens = wordpunct_tokenize(input)
words = [word.lower() for word in tokens]
for language in stopwords.fileids():
stopwords_set = set(stopwords.words(language))
words_set = set(words)
common_elements = words_set.intersection(stopwords_set)
lang_ratio[language] = len(common_elements)
return lang_ratio
def detect_language(input):
ratios = lang_ratio(input)
language = max(ratios, key=ratios.get)
return language
input1 = "السلام عليكم ورحمة الله"
input2 = "Hi how are you? my name is Ali"
input3 = "Moi mitä kuuluu? Nimeni on Ali"
input4 = "Selam nasılsın? benim adım Ali"
language = detect_language(input1)
print(input1+"\t language: "+language)
language = detect_language(input2)
print(input2+"\t language: "+language)
language = detect_language(input3)
print(input3+"\t language: "+language)
language = detect_language(input4)
print(input4+"\t language: "+language)```
but I want read from text file and check the document and print result like
1. السلام عليكم ورحمة الله language: Arabic.
2. Hi how are you? my name is Ali language: English.
3. Moi mitä kuuluu? Nimeni on Ali language: Finnish.