Я читал о BOW и TFIDF и нашел предложение, что " Если ваш набор данных небольшой и контекст задан доменом c, BoW может работать лучше, чем Word Embedding " , Мне было интересно, как различные vecotrizers затронуты из-за размера корпуса. Я знаю, что чем больше у вас данных в Data Science, тем лучше. Может ли кто-нибудь представить сравнение между этими методами векторизации, особенно с учетом размера совокупности данных. Также приветствуется сравнение с другими методами векторизации, такими как W2V, Avg W2V, Avg Tf-IDF.