НЛП Python Cod для определения языка - PullRequest
0 голосов
/ 11 октября 2019

Я пытаюсь определить язык из многоязычного текстового файла, расположенного на моем компьютере. Мне нужно обнаружить и напечатать результат, например: السلام عليكم ورحمة الله язык: арабский. Привет, как дела? меня зовут Али язык: английский. Моя митва куулуу? Нимени на али язык: финский. Пожалуйста, помогите

Я пытаюсь этот код:

from nltk.corpus import *
def lang_ratio(input):
    lang_ratio = {}
    tokens = wordpunct_tokenize(input)
    words = [word.lower() for word in tokens]
    for language in stopwords.fileids():
        stopwords_set = set(stopwords.words(language))
        words_set = set(words)
        common_elements = words_set.intersection(stopwords_set)
        lang_ratio[language] = len(common_elements)
    return lang_ratio
def detect_language(input):
    ratios = lang_ratio(input)
    language = max(ratios, key=ratios.get)
    return language
input1 = "السلام عليكم ورحمة الله"
input2 = "Hi how are you? my name is Ali"
input3 = "Moi mitä kuuluu? Nimeni on Ali"
input4 = "Selam nasılsın? benim adım Ali"

language = detect_language(input1)
print(input1+"\t language: "+language)
language = detect_language(input2)
print(input2+"\t language: "+language)
language = detect_language(input3)
print(input3+"\t language: "+language)
language = detect_language(input4)
print(input4+"\t language: "+language)```

but I want read from text file and check the document and print result like 


1. السلام عليكم ورحمة الله   language: Arabic.
2. Hi how are you? my name is Ali    language: English.
3. Moi mitä kuuluu? Nimeni on Ali    language: Finnish.

...