Я выполняю Sentiment Analysis для текстов песен и пытаюсь выяснить, какой векторизатор лучше всего использовать для моего набора данных.
Я НЕ ищу общий ответ, который лучше (т.е. TfIdf vsCountVectorizer, я понимаю, что набор данных определяет это), вместо того, чтобы пытаться выяснить, какой процесс определить, какой лучше, в зависимости от каждого набора данных.
Глядя на это руководство
https://medium.com/@annabiancajones/sentiment-analysis-on-reviews-feature-extraction-and-logistic-regression-43a29635cc81
annabiancajones определяет наиболее оптимальный векторизатор, используя каждый из них без параметров. Затем она приступает к определению параметров, по одному за раз.
Это хорошая идея? Или грубое принуждение каждого векторизатора к каждой комбинации параметров лучше? Есть ли смысл в этом? Например, используя свой анализ, она хочет найти лучший результат, используя:
mdf_params = [0.25, 0.5, 0.75, 1.0]
mf_params = [None, 500, 1000, 5000, 10000]
ngram_range=[1,2,3,4].
Должны ли мы использовать 3 вложенных цикла для определения наилучших параметров?
for df in mdf_params:
for mf in mf_params:
for ngrams in ngram_range:
#vectorization takes place here
#classification takes place here