Эта проблема полностью аналогична сегментации слов во многих азиатских языках, которые явно не кодируют границы слов (например, китайский, тайский).Если вы хотите узнать о подходах к проблеме, я рекомендую вам взглянуть на Google Scholar для текущих подходов к сегментации китайского слова.
Вы можете начать с рассмотрения более старых подходов: Sproat, Richard и Thomas Emerson.2003. Первый международный конкурс по сегментации китайского слова (http://www.sighan.org/bakeoff2003/paper.pdf)
. Если вы хотите получить готовое решение, я бы порекомендовал учебник LingPipe (http://alias -i.com / lingpipe / demos / tutorial / chineseTokens / read-me.html). Я использовал его на несегментированном английском тексте с хорошими результатами. Я обучил базовую модель языка символов на паре миллионов слов новостного текста, но я подозреваю, что для этой задачи вы получите разумную производительность, используя любой корпус.относительно нормального английского текста.
Они использовали систему исправления орфографии, чтобы рекомендовать 'исправления' кандидата (где исправления кандидата идентичны вводу, но с вставленными пробелами). Их корректор орфографии основан на расстоянии редактирования Левенштейнаони просто запрещают замену и транспонирование и ограничивают допустимые вставки только одним пробелом.