У меня разговоры клиента с агентом (без знаков препинания). Есть фразы из нескольких категорий обещаний, которые агент дал клиенту (перезвонить, записаться на прием и т. Д. c.). Это было сделано вручную. Всего 12 категорий. Сейчас я думаю о создании алгоритма для этого. Я думаю выполнить эту задачу в два этапа.
- На первом этапе мне нужно создать алгоритм, который может найти конец и начало всех обещаний. Этот алгоритм должен вставить начальный тег и конечный тег.
- Второй шаг заключается в создании классификатора, который будет обозначать обещание для необходимых категорий.
Как я понимаю, Второй шаг хорошо известен, и это называется классификацией текста. Но для первого шага я не смог найти ни одной статьи и репозитория github. Но я думаю, что это важная задача НЛП, и об этом должна быть информация. Может быть, есть подходы, которые решают два шага одновременно?
Обновление
Просто сэмплируйте транскрипт агента (на самом деле это сложнее):
hi my name is ben how can i help you yes good what about i can help probably yes sir do you have a problem with internet connection i see let do you need a help at place okay i see so what i can do i can arrange appointment with technical will it be good for you great can i help you with something else you okey okey to have a great day you too
Обещание здесь
i can arrange appointment with technical