Какие правила сегментации мы можем использовать в латинских языках для написания тестовых случаев? - PullRequest
1 голос
/ 03 февраля 2010

Нам нужно написать контрольные примеры для сегментации. Логика для латинских языков.В связи с тем, что я нашел много сайтов, документы по правилам логики сегментации, связанные с тем, что я получил одну ссылку "http://www.lisa.org/fileadmin/standards/srx20.pdf", но мы не хотим использовать это. Сейчас мы ищем более подходящие правила сегментации, которые могутПоддерживать все латиноамериканские языки и все возможности, такие как знаки препинания, точки остановки, запятую и другие символы, используемые для латиницы, могут быть протестированы с использованием этих правил сегментации после сегментации?

Спасибо заранее, Манджушри

1 Ответ

0 голосов
/ 16 августа 2010

Лучшим источником обобщенных правил сегментации для языков на основе латинского алфавита является стандартное приложение Unicode, в котором рассматривается сегментация текста: http://www.unicode.org/reports/tr29/

В частности, см. правила сегментации для предложений в этом приложении..

...