Question

Я хочу транслитерировать латинские символы с ударениями, такие как (àèîôû), в ASCII среди входных данных, которые содержат другие языки, такие как японский (кандзи, катакана, хирагана) и китайский.

Поэтому я выбрал правило транслитерации, чтобы Latin-ASCII; NFKC.

Насколько я понимаю, Transliterator, созданный с использованием экземпляра, указанного выше, не вызовет изменений в других языках, не являющихся латиницей.

Я провел некоторое тестирование и вижу, что письмо ゛ и ゜ удаляются в процессе. (Катакана - https://en.wikipedia.org/wiki/Katakana)

Знает ли кто-нибудь тело причину, по которой они удалены? А также знаете другие случаи символов, которые все еще будут затронуты транслитератором (особенно для японского и китайского)?

Я использую com.ibm.icu:icu4j:4.8 версия

Транслитератор ICU4J; Latin-ASCII; NFKC

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Транслитератор ICU4J; Latin-ASCII; NFKC

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы