Должен ли я включать подобие спама с самим собой в среднее значение по схожести выборок при создании новой функции сходства в случае «Хам против спама»? - PullRequest
1 голос
/ 09 апреля 2020

Я хочу улучшить свою модель, добавив в мои данные новую колонку функций, данные хэма и тексты спама. Я уже создал квадратную матрицу сходства косинусов для всех текстов, диагональ матрицы 1с = cos (0).

Я извлек весь текстовый индекс спама в обучающих данных, и я создал столбец подобия, для каждой ячейки в столбце я добавляю индивидуальное сходство между этим текстом и всем спамом и усредняю ​​их.

Мой вопрос: для текста, который является ветчиной, имеет смысл сделать над. Но для текста спам, при расчете сходства, следует ли исключать сходство между собой? Будет ли это причиной утечки данных?

Если у нас есть n текста с размером выборки, я представляю значение подобия ham_1 как среднее (ham_1 ~ spam_1, ham_1 ~ spam_2, ..., ham_1 ~ spam_n)

Мой вопрос:

Для текста спама spam_5 значение сходства = среднее (spam_5 ~ spam_1, spam_5 ~ spam_2, ..., spam_5 ~ spam_5, ..., spam_5 ~ spam_n)

Или

Для текста спама spam_5 значение сходства = среднее (spam_5 ~ spam_1, spam_5 ~ spam_2, ..., spam_5 ~ spam_5 , ..., spam_5 ~ spam_n)

...