Корейский в основном использует свой собственный алфавит, называемый хангыль.Время от времени появляются некоторые символы Хань.
Японец использует три системы письма вместе.Из них катакана и хирагана являются уникальными для японского языка и, таким образом, почти никогда не используются в корейском или китайском тексте.
Японский и китайский оба используют символы Хан, хотя это означает, что одинаковые диапазоны Unicode, так что нетпростой способ дифференцировать их, основываясь только на диапазонах символов!
Хотя есть некоторые эвристики.
В материковом Китае используются упрощенные символы, многие из которых уникальны и поэтому вряд ли когда-либо используются в японском или корейскомтекст.
Япония также упростила небольшое количество общих символов, многие из которых уникальны и, следовательно, вряд ли когда-либо будут использоваться в китайском или корейском тексте.
Но, безусловно, есть много случаев, когдаодинаковые строки символов действительны как для японского, так и для китайского языков, особенно в случае очень коротких строк.
Один из методов, который будет работать со всем текстом, состоит в просмотре групп символов.Это означает, что n-грамм и, вероятно, марковские модели, как Арафангион упоминает в своем ответе.Но имейте в виду, что даже в случае очень коротких строк это небезопасно!
И, конечно, ничего из этого не будет реализовано в любом программном обеспечении базы данных, поэтому вам придется делать это на языке программирования.