В настоящее время я работаю над созданием дистрактора для вопросов с несколькими вариантами ответов. Учебный набор состоит из вопроса, ответа и 3 отвлекающих факторов, и мне нужно предсказать 3 отвлекающих элемента для тестового набора. Я прошел много исследований по этому вопросу, но проблема в моем случае уникальна. Здесь проблема в том, что вопросы и ответы предназначены для понимания (обычно это большой отрывок из текстовой истории), но понимание, на основе которого не дано, и никакого вспомогательного текста не дано для вопроса. Более того, ответы и отвлекающие факторы - это не одно слово, а предложения. Исследовательская работа, на которую я пошел, в основном работала с неким вспомогательным текстом. Даже в наборе данных SciQ был некоторый вспомогательный текст, но проблема, с которой я работаю, отличается
Эта исследовательская работа была той, которая, как мне показалось, шла близко к тому, что я хотел, и я планирую реализовать это,Ниже приведен отрывок из статьи, которая, по словам авторов, работала лучше, чем модели NN.
Мы решаем DG как следующую проблему ранжирования: Проблема. Для заданного набора отвлекающих факторов D и набора данных MCQ M = {(qi, ai, {di1, ..., dik})} N i = 1, где qi - основа вопроса, ai - ключ, Di = {di1... dik} ⊆ D - это отвлекающие факторы, связанные с qi и ai, найти точечную функцию ранжирования r: (qi, ai, d) → [0, 1] для d ∈ D, так что отвлекающие факторы в Di ранжируютсявыше, чем в D - Di.
Мои вопросы: а) Из того, что я понял, в приведенных выше строках написано, что мы сначала создаем большой список, содержащий все отвлекающие факторы в наборе данных, а затем создаем точечноранжирование по отношению ко всем отвлекающим факторам по каждому вопросу? Так что, если у нас есть n вопросов и d отвлекающих. У нас будет матрица (nxd), в которой значения точечной функции находятся в диапазоне от o до 1. Кроме того, собственные отвлекающие факторы вопроса должны быть оценены выше, чем остальные. Правильно?
Чтобы изучить функцию ранжирования, мы исследуем два типа моделей: модели на основе объектов и модели на основе NN.
Модели на основе функций: с учетом кортежа (q, a, d) модель на основе признаков сначала преобразует ее в вектор признаков φ (q, a, d) ∈ R d с функцией φ. Мы проектируем следующие функции для DG, в результате чего получается вектор объектов 26 размеров:
- Emb Sim. Вложение сходства между q и d и сходство между a и d.
- POS Sim. Сходство Jaccard между POS-тегами a и d.
- ED. Расстояние редактирования между a и d.
- Token Sim. Сходство Жакара между жетонами q и d, жетонами a и d и жетонами q и a.
- Длина. Длина символов и токенов a и d и разница длин.
- Суффикс. Абсолютная и относительная длина самого длинного общего суффикса a и d.
- Freq. Средняя частота слов в а и д.
- Одиночный. Единственное / множественное число последовательностей a и d. Это
- Wiki Sim.
Мои вопросы: Будет ли идея генерирования этих функций применима как к дистракторам слов, так и к дистракторам предложений? (Согласно статье, они утверждают, что так и будет).
Помимо всех этих, у меня есть и другие простые вопросы, такие как: убрать здесь стоп-слова?
Я новичок в НЛП. Так что любые предложения о том, какая реализация SOTA будет работать здесь, были бы очень полезны. Заранее спасибо.