Как выбрать лучший векторизатор и его оптимальные параметры, которые подходят моему набору данных? - PullRequest
0 голосов
/ 11 октября 2019

Я выполняю Sentiment Analysis для текстов песен и пытаюсь выяснить, какой векторизатор лучше всего использовать для моего набора данных.

Я НЕ ищу общий ответ, который лучше (т.е. TfIdf vsCountVectorizer, я понимаю, что набор данных определяет это), вместо того, чтобы пытаться выяснить, какой процесс определить, какой лучше, в зависимости от каждого набора данных.

Глядя на это руководство

https://medium.com/@annabiancajones/sentiment-analysis-on-reviews-feature-extraction-and-logistic-regression-43a29635cc81

annabiancajones определяет наиболее оптимальный векторизатор, используя каждый из них без параметров. Затем она приступает к определению параметров, по одному за раз.

Это хорошая идея? Или грубое принуждение каждого векторизатора к каждой комбинации параметров лучше? Есть ли смысл в этом? Например, используя свой анализ, она хочет найти лучший результат, используя:

mdf_params = [0.25, 0.5, 0.75, 1.0]
mf_params = [None, 500, 1000, 5000, 10000]
ngram_range=[1,2,3,4].

Должны ли мы использовать 3 вложенных цикла для определения наилучших параметров?

for df in mdf_params:
    for mf in mf_params:
        for ngrams in ngram_range:

                      #vectorization takes place here
                      #classification takes place here
...