Как я могу преобразовать все японские хираганы в символы катакана в Python? - PullRequest
1 голос
/ 02 февраля 2011

Из диаграмм хирагана и катакана, похоже, можно "нормализовать" японский текст в хирагана или катакана Довольно просто построить таблицу и реализовать таблицу словаря / регулярных выражений для поиска / замены. Кто-нибудь знает, где работа уже выполнена?

Ответы [ 2 ]

1 голос
/ 03 февраля 2011

Вы можете делать то, что хотите, очень быстро, используя str.translate.

Однако не совсем понятно, почему вы хотите это сделать.

То, что я бы назвал нормализацией вязык, написанный на латинском алфавите, будет включать в себя нижний регистр, нормализацию пробела, удаление акцентов и т. д., чтобы в результате получился ASCII.Цель этого - не для отображения, а для сравнения введенного пользователем текста в некоем нечетком сценарии поиска / сопоставления / поиска.Дело в том, что ошибки акцента и т. Д. Встречаются довольно часто даже у местных авторов рассматриваемых языков.

Учитывая роль, которую Хирагана играет в японской системе письма (слова часто имеют основу кандзи и суффиксы хираганы)не могу представить себе какой-либо смысл в замене символов хираганы на катакана ... пожалуйста, просветите меня.

1 голос
/ 02 февраля 2011

Почему вы хотите это сделать?Катакана традиционно используется для слов, заимствованных из других языков, в то время как хирагана используется для родного японского языка.Нормализуя японский текст в ту или иную форму, вы могли бы на самом деле мешать его чтению (по крайней мере, мне будет сложнее, поскольку я теряю контекст, нормализуя его).вопрос, это похоже на то, что вы спрашиваете: JCONV

...