Задача Quora Question Pairs, предсказать, если два вопроса задают одну и ту же вещь, используя двоичную кросс-энтропийную потерю для оценки предсказания - PullRequest
0 голосов
/ 11 января 2019

У меня есть CSV-файл, содержащий пары вопросов из Quora Question Pairs Challenge. Для каждой пары есть соответствующий ярлык, который указывает, являются ли вопросы одинаковыми или нет. Я хочу создать метод, чтобы, если у нас были неизвестные пары вопросов, я мог ответить, если они задают одну и ту же вещь или нет. Точность результата должна быть определена с использованием двойной кросс-энтропийной потери.

Это проект, который мне нужно сделать для курса поиска информации. Проблема в том, что все решения, которые я нашел до сих пор, включают машинное обучение (например, нейронные сети), и нас не учили, как использовать какие-либо модели машинного обучения в этом курсе. Как я могу решить эту проблему, не используя машинное обучение?

Я думал об очистке данных (например, остановка слова reomval и удаление пунктуации), вычисление tf-idf и затем применение косинусного сходства между двумя парами. Таким образом, я могу найти, насколько похожи два вопроса, которые уже даны, без использования ярлыков. Тем не менее, как я могу использовать метки в своих интересах и предсказать сходство между двумя неизвестными парами вопросов без машинного обучения, есть ли простой способ, который я пропускаю?

1 Ответ

0 голосов
/ 13 июня 2019

Для решения этой проблемы вам потребуется использовать модели машинного обучения. Вы сделали красивую чистящую часть и использовали tf-idf, чтобы узнать, сколько раз слово встречалось в данном вопросе. Вы также можете попробовать модель word-2vec, которая также выявит смысловой смысл между словами. Infact quora использует случайный лес в качестве своей модели для прогнозирования сходства между двумя вопросами. Вы можете проверить эту ссылку, чтобы получить более подробную информацию. https://engineering.quora.com/Semantic-Question-Matching-with-Deep-Learning

В данный момент ваше решение является простым, хотя с самого начала и полезно. Но я бы посоветовал получить базовые знания о таких моделях, как логистическая регрессия, дерево решений для решения этой проблемы, если вы хотите повысить точность.

...