Я пытаюсь создать Word Embeddings, используя Word2Vec. Мне интересно, каковы плюсы и минусы использования самодельного токенизатора (например, перевод всех слов в нижний регистр и удаление знаков препинания) по сравнению с Моисеем, например? *