Я использую fastText для идентификации языка.
Функция предиката () в FT предполагает получение одной строки текста и разбивает слова на пробелах. Для китайских или других языков без четких границ слов я не уверен, как вводить пробелы. Мы могли бы использовать слово segmenter перед передачей текста на FT-, но нам нужно заранее знать язык.
Есть предложения о том, как предварительно обработать вводимый текст для идентификации языка?