Алгоритмы переноса слов для японского языка - PullRequest
6 голосов
/ 19 января 2010

В недавнем веб-приложении, которое я создал, я был приятно удивлен, когда один из наших пользователей решил использовать его для создания чего-то полностью на японском языке. Однако текст был завернут странно и неловко. По-видимому, браузеры не очень хорошо справляются с переносом текста на японском языке, возможно, потому, что в нем мало пробелов, поскольку каждый символ образует целое слово. Однако это не совсем безопасное предположение, поскольку некоторые слова состоят из нескольких символов, и небезопасно разбивать некоторые группы символов на разные строки.

Поиск в гугле не помог мне понять проблему лучше. Мне кажется, что нужен словарь неразрывных паттернов и предположить, что везде можно взломать. Но я боюсь, что не знаю достаточно о японском, чтобы действительно знать, что все слова, которые я понимаю из некоторых моих поисков, довольно сложны.

Как бы вы подошли к этой проблеме? Существуют ли какие-либо библиотеки или алгоритмы, о которых вы знаете, что они уже существуют, которые справляются с этим удовлетворительным образом?

1 Ответ

12 голосов
/ 19 января 2010

Японские правила переноса слов называются кинсоку шори и удивительно просты. На самом деле они в основном касаются знаков препинания и вообще не стараются не нарушать слова.

Я только что проверил с японским романом, и действительно, оба слова в слоге кана и слова, состоящие из нескольких китайских идеограмм, безнаказанно завернуты в середину слова.

...