Домашний токенизация против Моисея - PullRequest
0 голосов
/ 21 мая 2019

Я пытаюсь создать Word Embeddings, используя Word2Vec. Мне интересно, каковы плюсы и минусы использования самодельного токенизатора (например, перевод всех слов в нижний регистр и удаление знаков препинания) по сравнению с Моисеем, например? *

...