Тензориальный конвейер работает с любым языком, который использует токены.Как и в случае с Japanse, вы должны создать свой собственный токенизатор.
Вы можете сделать это, расширив классы Tokenizer
и Component
, e, g.:
class MecabTokenizer(Tokenizer, Component):
# fill with your code
Затем вы можете использовать свой пользовательский класс в конвейере NLU, указав путь к модулю в имени ( также описано в документации ), например:
pipeline:
- name: "path.to.MecabTokenizer"
# other components
Кто-то что-то пробовалпохоже здесь , может быть, вы можете использовать это или взять какой-то шаблон.