РАСА, как использовать японский (Tokennization-Mecab) - PullRequest
0 голосов
/ 26 октября 2018

RASA, как известно, является эффективной основой для ботов. Стек, такой как RASA NLU и RASA Core, действительно полезен.

Я раздаю его, обнаружив, что это удивительно, особенно с английским текстом. Я еще раз попробую японский текст (альфа-поддержка spacy). Я использовал его с конвейером tenorflow, я застрял, я не могу понять, как использовать внешние токенизации, такие как Mecab.

Кто-нибудь испытал это ??

Ответы [ 2 ]

0 голосов
/ 04 июля 2019

Я добавил пользовательский компонент, используя токенайзер Mecab. У меня отлично работает для японского текста.

Ссылка: Rasa_Japanese

0 голосов
/ 13 ноября 2018

Тензориальный конвейер работает с любым языком, который использует токены.Как и в случае с Japanse, вы должны создать свой собственный токенизатор.

Вы можете сделать это, расширив классы Tokenizer и Component, e, g.:

class MecabTokenizer(Tokenizer, Component):

# fill with your code

Затем вы можете использовать свой пользовательский класс в конвейере NLU, указав путь к модулю в имени ( также описано в документации ), например:

pipeline:
- name: "path.to.MecabTokenizer"
# other components

Кто-то что-то пробовалпохоже здесь , может быть, вы можете использовать это или взять какой-то шаблон.

...