Question

Существует ли библиотека, которая может заменить специальные символы на эквиваленты ASCII, например:

"Cześć"

до:

"Czesc"

Конечно, я могу создать карту:

{'ś':'s', 'ć': 'c'}

и используйте функцию замены. Но я не хочу жестко закодировать все эквиваленты в моей программе, если есть какая-то функция, которая уже делает это.

nosklo · Answer 1 · 07 июля 2010

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import unicodedata
text = u'Cześć'
print unicodedata.normalize('NFD', text).encode('ascii', 'ignore')

dan04 · Answer 2 · 12 июля 2010

Вы можете получить большую часть пути, выполнив:

import unicodedata

def strip_accents(text):
    return ''.join(c for c in unicodedata.normalize('NFKD', text) if unicodedata.category(c) != 'Mn')

К сожалению, существуют акцентированные латинские буквы, которые нельзя разложить на ASCII-буквы + комбинирующие метки.Вам придется обращаться с ними вручную.К ним относятся:

Æ → AE
Ð → D
Ø → O
Þ → TH
ß →ss
æ → ae
ð → d
ø → o
þ → th
Œ → OE
œ → oe
ƒ → f

Grzegorz Skrzypczak · Answer 3 · 06 апреля 2012

Я сделал это так:

POLISH_CHARACTERS = {
    50309:'a',50311:'c',50329:'e',50562:'l',50564:'n',50099:'o',50587:'s',50618:'z',50620:'z',
    50308:'A',50310:'C',50328:'E',50561:'L',50563:'N',50067:'O',50586:'S',50617:'Z',50619:'Z',}

def encodePL(text):
    nrmtxt = unicodedata.normalize('NFC',text)
    i = 0
    ret_str = []
    while i < len(nrmtxt):
        if ord(text[i])>128: # non ASCII character
            fbyte = ord(text[i])
            sbyte = ord(text[i+1])
            lkey = (fbyte << 8) + sbyte
            ret_str.append(POLISH_CHARACTERS.get(lkey))
            i = i+1
        else: # pure ASCII character
            ret_str.append(text[i])
        i = i+1
    return ''.join(ret_str)

при исполнении:

encodePL(u'ąćęłńóśźż ĄĆĘŁŃÓŚŹŻ')

будет выводиться так:

u'acelnoszz ACELNOSZZ'

Это прекрасно работает для меня -; D

Marcin Wojnarski · Answer 4 · 13 марта 2012

Попробуйте пакет trans . Выглядит очень перспективно. Поддерживает польский.

John Machin · Answer 5 · 12 июля 2010

Уловка unicodedata.normalize лучше всего описать как половину асси.Вот надежный подход , который включает в себя карту для букв без разложения.Обратите внимание на дополнительные записи карты в комментариях.

Заменить специальные символы на эквивалент ASCII

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Заменить специальные символы на эквивалент ASCII

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов