Возьмите следующий фиктивный набор данных.
id, gender, race, city, county, major.
1, Male, White, St. Paul, Ramsey, computer science
2, Female, White, St. Paul, Ramsey, math
3, Male, Black, Bismark, Gotham, English
4, Female, Asian, New York, Betty, computer science.
Я хочу вычислить сходство между каждой записью, и исследование показало, что, возможно, сходство косинусов может дать хорошие результаты.Мой камень преткновения - как построить векторы для каждой записи.То есть, если я сравниваю запись 1 и запись 2, мне нужно преобразовать запись 1 в v1 и r2 в v2, а затем применить косинусное сходство.Как это может быть сделано?
Если, возможно, есть другое и лучшее решение для сравнения этих записей, я бы хотел узнать об этом.