Должен ли я сначала использовать CountVectorizer () для векторизации моих токенов, прежде чем вводить их в алгоритм перекрестной проверки KFold? - PullRequest
0 голосов
/ 10 апреля 2020

У меня есть набор данных, имеющий 2 столбца: Категория (для меня это X_Label) и Тексты (для меня Y_Label). Набор данных очень мал: всего 224 выборки (около 120 выборок для каждой из двух категорий в X_Label). Я использовал CountVectorizer (ngram_range (2,2), стоп-слова) и гауссовскую наивную байесовскую классификационную модель, которая дала мне точность 87% с помощью Confusion Matrix следующим образом: 23 5 3 11

Теперь я хочу использовать KFold ML Алгоритм, но я не уверен, должен ли я сначала векторизовать свой токен слова или нет, потому что если я использую countvectorizer для первого построения векторного элемента, не будет ли моя модель смещена? Должен ли я напрямую подавать свои жетоны слова в перекрестную проверку KFold (с k = 10)?

Я нашел одну статью, связанную с этой проблемой, но не понял правильно: sklearn: векторизация при перекрестной проверке для классификации текста

Кроме того, какое должно быть подходящее значение K для такого маленького набора данных? И если есть более эффективная модель ML для такого небольшого набора данных, пожалуйста, дайте мне знать.

Спасибо!

...