как подготовить данные для конкретного чат-бота - PullRequest
0 голосов
/ 06 ноября 2018

Я пытаюсь сделать чат-бота. Все чат-роботы сделаны из структурных данных. Я посмотрел Расу, IBM watson и других известных ботов. Есть ли способы, которыми мы можем преобразовать неструктурированные данные в некую структуру, которую можно использовать для обучения ботов? Давайте рассмотрим нижний абзац -

Packaging unit A packaging unit is used to combine a certain quantity of identical items to form a group. The quantity specified here is then used when printing the item labels so that you do not have to label items individually when the items are not managed by serial number or by batch. You can also specify the dimensions of the packaging unit here and enable and disable them separately for each item.

It is possible to store several EAN numbers per packaging unit since these numbers may differ for each packaging unit even when the packaging units are identical. These settings can be found on the Miscellaneous tab: There are also two more settings in the system settings that are relevant to mobile data entry:

When creating a new item, the item label should be printed automatically. For this reason, we have added the option ‘Print item label when creating new storage locations’ to the settings. When using mobile data entry devices, every item should be assigned to a storage location, where an item label is subsequently printed that should be applied to the shelf in the warehouse to help identify the item faster.

как сделать бота из таких данных, любой лидер был бы очень признателен. Спасибо! эта идея на картинке будет работать? just_a_thought

1 Ответ

0 голосов
/ 06 ноября 2018

Данные, которые вы показываете, являются хорошим кандидатом для поиска в отрывке. По сути, вы хотели бы ответить на вопрос пользователя по наиболее релевантному абзацу, найденному в ваших данных обучения. Этот вариант использования обрабатывается службой Watson Discovery , которая может анализировать неструктурированные данные по мере их предоставления, а затем вы можете запросить службу с помощью входного текста и ответов службы с ближайшим отрывком, найденным в данных.

Исходя из моего опыта, вы также получаете хорошие результаты, внедряя свой собственный алгоритм TF / IDF , адаптированный для вашего случая использования (TF / IDF - хороший поиск поиска сходства, например, стоп-слова для вас).

Теперь, если ваша цель состоит в том, чтобы запустить бот-чат, основанный на правилах, с использованием данных такого типа, тогда эти данные не являются идеальными. Для чат-ботов на основе правил лучшими данными будут реальные разговоры между пользователями, задающими вопросы о целевом домене, и ответами какого-либо эксперта в данной области. Используя эти данные, вы сможете, по крайней мере, провести некоторый анализ, помогающий вам точно определить релевантные темы и домены, с которыми чатбот должен работать, однако - я думаю - вам будет трудно использовать эти данные для загрузки набора намерений (вопросов, которые будут задавать пользователи). спросите) для основанного на правилах чат-бота.

TLDR Если бы я хотел использовать сервис Watson, я бы начал с Watson Discovery. В качестве альтернативы, я бы реализовал свой собственный алгоритм поиска, начиная с TF / IDF (который довольно хорошо соответствует вашему предложенному решению).

...