Я хочу транслитерировать латинские символы с ударениями, такие как (àèîôû), в ASCII среди входных данных, которые содержат другие языки, такие как японский (кандзи, катакана, хирагана) и китайский.
Поэтому я выбрал правило транслитерации, чтобы Latin-ASCII; NFKC
.
Насколько я понимаю, Transliterator, созданный с использованием экземпляра, указанного выше, не вызовет изменений в других языках, не являющихся латиницей.
Я провел некоторое тестирование и вижу, что письмо ゛
и ゜
удаляются в процессе. (Катакана - https://en.wikipedia.org/wiki/Katakana)
Знает ли кто-нибудь тело причину, по которой они удалены? А также знаете другие случаи символов, которые все еще будут затронуты транслитератором (особенно для японского и китайского)?
Я использую com.ibm.icu:icu4j:4.8
версия