Набор данных только для вопросов для диалогов на основе вопросов - PullRequest
0 голосов
/ 14 октября 2019

В магистерской работе я работаю с диалогом на основе вопросов. В рамках этого метода вам разрешено задавать вопросы только на заданный начальный вопрос. Благодаря теории обучения невежество может кристаллизоваться. Исходя из этого, я пытаюсь внедрить систему рекомендаций.

Для машинного обучения или других подходов необходим огромный набор данных. К сожалению, приложение не использовалось достаточно, чтобы генерировать достаточный набор вопросов.

Поэтому мне нужно найти новые источники данных. В настоящее время я не могу найти ни существующий подходящий набор данных, ни набор данных, который можно адаптировать для соответствия цели.

Набор данных TREC (например, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.11.2766&rep=rep1&type=pdf),) предлагает достаточно вопросов, но онивообще не связаны между собой. Поэтому мне придется вручную создавать шаблоны, которые затем нужно будет извлекать снова. Так что это не очень полезно.

Вопросы StackOverflow и их «Связанные» вопросы (внизу слева, на случай, если выникогда не воспринимал их), также пришло мне в голову, но они часто не вопросы и часто связаны через текст (корпус), описывающий проблему. Но мне действительно нужны только вопросы.

Кроме того, Reddit Megathread былиспользуется для ручного тестирования базовой службы. Они семантически связаны и имеют последующее отношение, но часто это не вопросы.

В настоящее время я не могу найти другие значимые потенциальные источники. У кого-нибудь есть креативная идея?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...