Данные, которые вы показываете, являются хорошим кандидатом для поиска в отрывке. По сути, вы хотели бы ответить на вопрос пользователя по наиболее релевантному абзацу, найденному в ваших данных обучения. Этот вариант использования обрабатывается службой Watson Discovery , которая может анализировать неструктурированные данные по мере их предоставления, а затем вы можете запросить службу с помощью входного текста и ответов службы с ближайшим отрывком, найденным в данных.
Исходя из моего опыта, вы также получаете хорошие результаты, внедряя свой собственный алгоритм TF / IDF , адаптированный для вашего случая использования (TF / IDF - хороший поиск поиска сходства, например, стоп-слова для вас).
Теперь, если ваша цель состоит в том, чтобы запустить бот-чат, основанный на правилах, с использованием данных такого типа, тогда эти данные не являются идеальными. Для чат-ботов на основе правил лучшими данными будут реальные разговоры между пользователями, задающими вопросы о целевом домене, и ответами какого-либо эксперта в данной области. Используя эти данные, вы сможете, по крайней мере, провести некоторый анализ, помогающий вам точно определить релевантные темы и домены, с которыми чатбот должен работать, однако - я думаю - вам будет трудно использовать эти данные для загрузки набора намерений (вопросов, которые будут задавать пользователи). спросите) для основанного на правилах чат-бота.
TLDR
Если бы я хотел использовать сервис Watson, я бы начал с Watson Discovery. В качестве альтернативы, я бы реализовал свой собственный алгоритм поиска, начиная с TF / IDF (который довольно хорошо соответствует вашему предложенному решению).