Транслитератор ICU4J; Latin-ASCII; NFKC - PullRequest
0 голосов
/ 11 февраля 2020

Я хочу транслитерировать латинские символы с ударениями, такие как (àèîôû), в ASCII среди входных данных, которые содержат другие языки, такие как японский (кандзи, катакана, хирагана) и китайский.

Поэтому я выбрал правило транслитерации, чтобы Latin-ASCII; NFKC.

Насколько я понимаю, Transliterator, созданный с использованием экземпляра, указанного выше, не вызовет изменений в других языках, не являющихся латиницей.

Я провел некоторое тестирование и вижу, что письмо и удаляются в процессе. (Катакана - https://en.wikipedia.org/wiki/Katakana)

Знает ли кто-нибудь тело причину, по которой они удалены? А также знаете другие случаи символов, которые все еще будут затронуты транслитератором (особенно для японского и китайского)?

Я использую com.ibm.icu:icu4j:4.8 версия

...