Моя компания собирала множество разговоров из приложения чата twak.to в виде json файлов. В нем много информации, но самой важной частью является чат между клиентом и агентом. Пожалуйста, посмотрите ниже пример того, как это выглядит:
"messages": [
{
"sender": {
"t": "v"
},
"type": "msg",
"time": "2020-04-15T07:35:19.452Z",
"msg": "Salve, mi serve un certificato di diploma conforme agli articoli 23-24 direttiva europea 2005/36 prr il riconoscimento della qualifoca professionale di medico all estero. Come fare per ottenerlo?"
},
{
"sender": {
"t": "a",
"n": "Operatore7"
},
"type": "msg",
"time": "2020-04-15T07:37:58.348Z",
"msg": "gentile studente, deve fare richiesta inviando una mail a: prova@dummy.it"
}]
Как вы можете видеть, у нас есть последовательность сообщений между клиентом (определяемая значением "v" клавиши "t") и агент (определяется значением «a» клавиши «t»). Это всего лишь пример, но в целом файл содержит много блоков вопросов и ответов во время разговора.
Мой вопрос таков: как я могу проанализировать этот пользовательский файл json, чтобы выяснить / извлечь "намерение" и "сущности" с помощью RASA-X, чтобы я мог подготовить файл в соответствии с моей моделью? У нас есть сотни файлов, и было бы невозможно вручную извлечь такую информацию один за другим.