Question

Я столкнулся с ситуацией, когда я читаю строку текста, и мне нужно определить код языка (en, de, fr, sp и т. Д.).

Есть ли простой способ сделать это в Python?

jfs · Answer 1 · 28 декабря 2010

Если вам нужно определить язык в ответ на действие пользователя, вы можете использовать google ajax language API :

#!/usr/bin/env python
import json
import urllib, urllib2

def detect_language(text,
    userip=None,
    referrer="http://stackoverflow.com/q/4545977/4279",
    api_key=None):        

    query = {'q': text.encode('utf-8') if isinstance(text, unicode) else text}
    if userip: query.update(userip=userip)
    if api_key: query.update(key=api_key)

    url = 'https://ajax.googleapis.com/ajax/services/language/detect?v=1.0&%s'%(
        urllib.urlencode(query))

    request = urllib2.Request(url, None, headers=dict(Referer=referrer))
    d = json.load(urllib2.urlopen(request))

    if d['responseStatus'] != 200 or u'error' in d['responseData']:
        raise IOError(d)

    return d['responseData']['language']

print detect_language("Python - can I detect unicode string language code?")

Выход

en

Google Translate API v2

Предел по умолчанию 100000 символов / день (не более 5000 одновременно).

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import json
import urllib, urllib2

from operator import itemgetter

def detect_language_v2(chunks, api_key):
    """
    chunks: either string or sequence of strings

    Return list of corresponding language codes
    """
    if isinstance(chunks, basestring):
        chunks = [chunks] 

    url = 'https://www.googleapis.com/language/translate/v2'

    data = urllib.urlencode(dict(
        q=[t.encode('utf-8') if isinstance(t, unicode) else t 
           for t in chunks],
        key=api_key,
        target="en"), doseq=1)

    # the request length MUST be < 5000
    if len(data) > 5000:
        raise ValueError("request is too long, see "
            "http://code.google.com/apis/language/translate/terms.html")

    #NOTE: use POST to allow more than 2K characters
    request = urllib2.Request(url, data,
        headers={'X-HTTP-Method-Override': 'GET'})
    d = json.load(urllib2.urlopen(request))
    if u'error' in d:
        raise IOError(d)
    return map(itemgetter('detectedSourceLanguage'), d['data']['translations'])

Теперь вы можете запросить определение языкаявно :

def detect_language_v2(chunks, api_key):
    """
    chunks: either string or sequence of strings

    Return list of corresponding language codes
    """
    if isinstance(chunks, basestring):
        chunks = [chunks] 

    url = 'https://www.googleapis.com/language/translate/v2/detect'

    data = urllib.urlencode(dict(
        q=[t.encode('utf-8') if isinstance(t, unicode) else t
           for t in chunks],
        key=api_key), doseq=True)

    # the request length MUST be < 5000
    if len(data) > 5000:
        raise ValueError("request is too long, see "
            "http://code.google.com/apis/language/translate/terms.html")

    #NOTE: use POST to allow more than 2K characters
    request = urllib2.Request(url, data,
        headers={'X-HTTP-Method-Override': 'GET'})
    d = json.load(urllib2.urlopen(request))

    return [sorted(L, key=itemgetter('confidence'))[-1]['language']
            for L in d['data']['detections']]

Пример:

print detect_language_v2(
    ["Python - can I detect unicode string language code?",
     u"матрёшка",
     u"打水"], api_key=open('api_key.txt').read().strip())

Выход

[u'en', u'ru', u'zh-CN']

Benjamin Wohlwend · Answer 2 · 28 декабря 2010

Посмотрите на думаю-язык :

Попытки определить естественный язык выделенного текста Unicode (utf-8).

Но, как следует из названия, оно угадывает язык.Вы не можете ожидать 100% правильных результатов.

Редактировать:

язык предположений не поддерживается.Но есть форк (поддерживающий python3): guess_language-spirit

yekta · Answer 3 · 03 ноября 2015

В моем случае мне нужно определить только два языка, поэтому я просто проверяю первый символ:

import unicodedata

def is_greek(term):
    return 'GREEK' in unicodedata.name(term.strip()[0])


def is_hebrew(term):
    return 'HEBREW' in unicodedata.name(term.strip()[0])

Paulo Scardine · Answer 4 · 28 декабря 2010

Посмотрите на Natural Language Toolkit и Автоматическая идентификация языка с использованием Python для идей.

Я хотел бы знать, может ли байесовский фильтр правильно понимать язык, но я не могу сейчас написать подтверждение концепции.

Tushar Goswami · Answer 5 · 19 октября 2016

Полезная статья здесь предполагает, что этот открытый исходный код с именем CLD является лучшим выбором для обнаружения языка в python.

В статье показано сравнение скорости и точности между 3 решениями:

определение языка или его порт Python langdetect
Тик
Обнаружение языка хрома (CLD)

Я потратил время на langdetect, теперь я переключаюсь на CLD, что в 16 раз быстрее, чем langdetect, и точность 98,8%

ismail · Answer 6 · 28 декабря 2010

Попробуйте Universal Encoding Detector это порт модуля chardet от Firefox до Python.

pafcu · Answer 7 · 28 декабря 2010

Если у вас есть только ограниченное количество возможных языков, вы можете использовать набор словарей (возможно, только самых распространенных слов) для каждого языка, а затем сверять введенные слова со словарями.

Python - я могу обнаружить код языка строки Unicode?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Выход

Google Translate API v2

Выход

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python - я могу обнаружить код языка строки Unicode?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Выход

Google Translate API v2

Выход

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы