Question

Я использую fastText для идентификации языка.

Функция предиката () в FT предполагает получение одной строки текста и разбивает слова на пробелах. Для китайских или других языков без четких границ слов я не уверен, как вводить пробелы. Мы могли бы использовать слово segmenter перед передачей текста на FT-, но нам нужно заранее знать язык.

Есть предложения о том, как предварительно обработать вводимый текст для идентификации языка?

fastText Идентификация языков без четких границ слов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

fastText Идентификация языков без четких границ слов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы