fastText Идентификация языков без четких границ слов - PullRequest
0 голосов
/ 09 апреля 2020

Я использую fastText для идентификации языка.

Функция предиката () в FT предполагает получение одной строки текста и разбивает слова на пробелах. Для китайских или других языков без четких границ слов я не уверен, как вводить пробелы. Мы могли бы использовать слово segmenter перед передачей текста на FT-, но нам нужно заранее знать язык.

Есть предложения о том, как предварительно обработать вводимый текст для идентификации языка?

...