Хорошо ли векторизация TF-IDF с маленьким корпусом? - PullRequest
0 голосов
/ 29 февраля 2020

Я читал о BOW и TFIDF и нашел предложение, что " Если ваш набор данных небольшой и контекст задан доменом c, BoW может работать лучше, чем Word Embedding " , Мне было интересно, как различные vecotrizers затронуты из-за размера корпуса. Я знаю, что чем больше у вас данных в Data Science, тем лучше. Может ли кто-нибудь представить сравнение между этими методами векторизации, особенно с учетом размера совокупности данных. Также приветствуется сравнение с другими методами векторизации, такими как W2V, Avg W2V, Avg Tf-IDF.

...