У меня есть CSV-файл, содержащий пары вопросов из Quora Question Pairs Challenge. Для каждой пары есть соответствующий ярлык, который указывает, являются ли вопросы одинаковыми или нет. Я хочу создать метод, чтобы, если у нас были неизвестные пары вопросов, я мог ответить, если они задают одну и ту же вещь или нет. Точность результата должна быть определена с использованием двойной кросс-энтропийной потери.
Это проект, который мне нужно сделать для курса поиска информации. Проблема в том, что все решения, которые я нашел до сих пор, включают машинное обучение (например, нейронные сети), и нас не учили, как использовать какие-либо модели машинного обучения в этом курсе. Как я могу решить эту проблему, не используя машинное обучение?
Я думал об очистке данных (например, остановка слова reomval и удаление пунктуации), вычисление tf-idf и затем применение косинусного сходства между двумя парами. Таким образом, я могу найти, насколько похожи два вопроса, которые уже даны, без использования ярлыков. Тем не менее, как я могу использовать метки в своих интересах и предсказать сходство между двумя неизвестными парами вопросов без машинного обучения, есть ли простой способ, который я пропускаю?