Генерация дистрактора для вопроса с множественным выбором - PullRequest
0 голосов
/ 03 октября 2019

В настоящее время я работаю над созданием дистрактора для вопросов с несколькими вариантами ответов. Учебный набор состоит из вопроса, ответа и 3 отвлекающих факторов, и мне нужно предсказать 3 отвлекающих элемента для тестового набора. Я прошел много исследований по этому вопросу, но проблема в моем случае уникальна. Здесь проблема в том, что вопросы и ответы предназначены для понимания (обычно это большой отрывок из текстовой истории), но понимание, на основе которого не дано, и никакого вспомогательного текста не дано для вопроса. Более того, ответы и отвлекающие факторы - это не одно слово, а предложения. Исследовательская работа, на которую я пошел, в основном работала с неким вспомогательным текстом. Даже в наборе данных SciQ был некоторый вспомогательный текст, но проблема, с которой я работаю, отличается

Эта исследовательская работа была той, которая, как мне показалось, шла близко к тому, что я хотел, и я планирую реализовать это,Ниже приведен отрывок из статьи, которая, по словам авторов, работала лучше, чем модели NN.

Мы решаем DG как следующую проблему ранжирования: Проблема. Для заданного набора отвлекающих факторов D и набора данных MCQ M = {(qi, ai, {di1, ..., dik})} N i = 1, где qi - основа вопроса, ai - ключ, Di = {di1... dik} ⊆ D - это отвлекающие факторы, связанные с qi и ai, найти точечную функцию ранжирования r: (qi, ai, d) → [0, 1] для d ∈ D, так что отвлекающие факторы в Di ранжируютсявыше, чем в D - Di.

Мои вопросы: а) Из того, что я понял, в приведенных выше строках написано, что мы сначала создаем большой список, содержащий все отвлекающие факторы в наборе данных, а затем создаем точечноранжирование по отношению ко всем отвлекающим факторам по каждому вопросу? Так что, если у нас есть n вопросов и d отвлекающих. У нас будет матрица (nxd), в которой значения точечной функции находятся в диапазоне от o до 1. Кроме того, собственные отвлекающие факторы вопроса должны быть оценены выше, чем остальные. Правильно?

Чтобы изучить функцию ранжирования, мы исследуем два типа моделей: модели на основе объектов и модели на основе NN.

Модели на основе функций: с учетом кортежа (q, a, d) модель на основе признаков сначала преобразует ее в вектор признаков φ (q, a, d) ∈ R d с функцией φ. Мы проектируем следующие функции для DG, в результате чего получается вектор объектов 26 размеров:

  • Emb Sim. Вложение сходства между q и d и сходство между a и d.
  • POS Sim. Сходство Jaccard между POS-тегами a и d.
  • ED. Расстояние редактирования между a и d.
  • Token Sim. Сходство Жакара между жетонами q и d, жетонами a и d и жетонами q и a.
  • Длина. Длина символов и токенов a и d и разница длин.
  • Суффикс. Абсолютная и относительная длина самого длинного общего суффикса a и d.
  • Freq. Средняя частота слов в а и д.
  • Одиночный. Единственное / множественное число последовательностей a и d. Это
  • Wiki Sim.

Мои вопросы: Будет ли идея генерирования этих функций применима как к дистракторам слов, так и к дистракторам предложений? (Согласно статье, они утверждают, что так и будет).

Помимо всех этих, у меня есть и другие простые вопросы, такие как: убрать здесь стоп-слова?

Я новичок в НЛП. Так что любые предложения о том, какая реализация SOTA будет работать здесь, были бы очень полезны. Заранее спасибо.

1 Ответ

1 голос
/ 08 октября 2019

Это обширная тема исследования, и это правда, что генерация ложного ответа или отвлекающего фактора в вашем случае является очень важной проблемой в обширной НЛП. С тех пор не существует современного метода для идеального решения.

Но было опробовано несколько реализаций, из которых я предлагаю использовать двухэтапный метод:

1) ГЕНЕРАЦИЯ ДИСТРАКТОРОВ С ИСПОЛЬЗОВАНИЕМ КОНЦЕПЦИИ ВСТАВЛЕНИЯ ПОДОБНОСТИ ДЛЯ ПРЕДОСТАВЛЕНИЯ НАЧАЛЬНОГО СПИСКА

2)ИСПОЛЬЗУЙТЕ РЕЙТИНГОВЫЙ ПОДХОД ОТ ИК (ПОЛУЧЕНИЕ ИНФОРМАЦИИ) В целях улучшения прогноза.

Надеюсь, что это может помочь: https://pdfs.semanticscholar.org/ebe9/99b7be778a3790af95e981e26c08672d37c2.pdf?_ga=2.11580023.2137318516.1570520867-988658311.1570520867

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...