У меня есть записи телефонных разговоров с клиентами и агентами. Я пытаюсь найти обещания, которые дал агент клиенту.
Я уже делал восстановление пунктуации. Но есть много предложений, которые не имеют никакого смысла. Я хотел бы удалить их из стенограммы. Большинство из них - просто набор не связанных слов. Интересно, какой подход лучше для этой задачи?
Мои идеи:
• Используйте tf idf и word2ve c для создания векторов из всех предложений. После этого мы можем выполнить какое-то обнаружение аномалий, например, искать и удалять векторы, которые сильно отличаются от большинства других векторов.
• Спам-фильтры. Может быть, возможно ли применить спам-фильтры для этой задачи?
• Создайте некоторый шаблон части речевых тегов, который должно включать правильное предложение. Например, любое хорошее предложение должно включать существительное + глагол. Или мы можем использовать, например, токены зависимости от spacy.
Примеры
Пример предложения, которое я хочу сохранить:
Есть После отправки бесплатно, вы получите номер для отслеживания ups.
Пример нежелательного предложения:
Kinder pr, просто нужно набрать его снова, часы приводы Вефиль.
Еще одно нежелательное предложение:
Точно так, что вы включили его и сказали, что это относится к этому.