В магистерской работе я работаю с диалогом на основе вопросов. В рамках этого метода вам разрешено задавать вопросы только на заданный начальный вопрос. Благодаря теории обучения невежество может кристаллизоваться. Исходя из этого, я пытаюсь внедрить систему рекомендаций.
Для машинного обучения или других подходов необходим огромный набор данных. К сожалению, приложение не использовалось достаточно, чтобы генерировать достаточный набор вопросов.
Поэтому мне нужно найти новые источники данных. В настоящее время я не могу найти ни существующий подходящий набор данных, ни набор данных, который можно адаптировать для соответствия цели.
Набор данных TREC (например, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.11.2766&rep=rep1&type=pdf),) предлагает достаточно вопросов, но онивообще не связаны между собой. Поэтому мне придется вручную создавать шаблоны, которые затем нужно будет извлекать снова. Так что это не очень полезно.
Вопросы StackOverflow и их «Связанные» вопросы (внизу слева, на случай, если выникогда не воспринимал их), также пришло мне в голову, но они часто не вопросы и часто связаны через текст (корпус), описывающий проблему. Но мне действительно нужны только вопросы.
Кроме того, Reddit Megathread былиспользуется для ручного тестирования базовой службы. Они семантически связаны и имеют последующее отношение, но часто это не вопросы.
В настоящее время я не могу найти другие значимые потенциальные источники. У кого-нибудь есть креативная идея?