Я хочу улучшить свою модель, добавив в мои данные новую колонку функций, данные хэма и тексты спама. Я уже создал квадратную матрицу сходства косинусов для всех текстов, диагональ матрицы 1с = cos (0).
Я извлек весь текстовый индекс спама в обучающих данных, и я создал столбец подобия, для каждой ячейки в столбце я добавляю индивидуальное сходство между этим текстом и всем спамом и усредняю их.
Мой вопрос: для текста, который является ветчиной, имеет смысл сделать над. Но для текста спам, при расчете сходства, следует ли исключать сходство между собой? Будет ли это причиной утечки данных?
Если у нас есть n текста с размером выборки, я представляю значение подобия ham_1 как среднее (ham_1 ~ spam_1, ham_1 ~ spam_2, ..., ham_1 ~ spam_n)
Мой вопрос:
Для текста спама spam_5 значение сходства = среднее (spam_5 ~ spam_1, spam_5 ~ spam_2, ..., spam_5 ~ spam_5, ..., spam_5 ~ spam_n)
Или
Для текста спама spam_5 значение сходства = среднее (spam_5 ~ spam_1, spam_5 ~ spam_2, ..., spam_5 ~ spam_5 , ..., spam_5 ~ spam_n)