Удаление ненужных предложений - PullRequest
2 голосов
/ 10 января 2020

У меня есть записи телефонных разговоров с клиентами и агентами. Я пытаюсь найти обещания, которые дал агент клиенту.

Я уже делал восстановление пунктуации. Но есть много предложений, которые не имеют никакого смысла. Я хотел бы удалить их из стенограммы. Большинство из них - просто набор не связанных слов. Интересно, какой подход лучше для этой задачи?

Мои идеи:

• Используйте tf idf и word2ve c для создания векторов из всех предложений. После этого мы можем выполнить какое-то обнаружение аномалий, например, искать и удалять векторы, которые сильно отличаются от большинства других векторов.

• Спам-фильтры. Может быть, возможно ли применить спам-фильтры для этой задачи?

• Создайте некоторый шаблон части речевых тегов, который должно включать правильное предложение. Например, любое хорошее предложение должно включать существительное + глагол. Или мы можем использовать, например, токены зависимости от spacy.

Примеры

Пример предложения, которое я хочу сохранить:

Есть После отправки бесплатно, вы получите номер для отслеживания ups.

Пример нежелательного предложения:

Kinder pr, просто нужно набрать его снова, часы приводы Вефиль.

Еще одно нежелательное предложение:

Точно так, что вы включили его и сказали, что это относится к этому.

1 Ответ

0 голосов
/ 26 января 2020

Одна вещь, которую я бы попробовал, - это рассматривать ее как проблему классификации (мусор против не мусора). Вы можете обучить модель на основе помеченного набора (т.е. вам нужно пометить некоторое подмножество вашего набора данных), а затем классифицировать остальную часть корпуса. Вы можете использовать предварительно обученную языковую модель, такую ​​как Bert, и точно настроить ее, используя помеченный набор, как здесь (https://colab.research.google.com/github/google-research/bert/blob/master/predicting_movie_reviews_with_bert_on_tf_hub.ipynb).

Преимущество использования такой языковой модели, как это означает, что вам не нужно слишком беспокоиться о лингвистической c (предварительной) обработке, то есть вам не нужно получать структуру части речи или синтаксиса c.

Комментарии относительно ваших идей:

  1. Обнаружение аномалий с помощью tf-idf и word2ve c: Это зависит от доли нежелательных предложений в вашем корпусе. Если бы их было больше 15%, я бы подумал, что они могут быть не такими аномальными. Кроме того, я предполагаю, что ваши нежелательные предложения происходят из зашумленной автоматической c транскрипции речи в текст. Я не уверен, в какой степени части этих нежелательных предложений правильно транскрибируются и какое влияние может иметь правильно транскрибированный фрагмент на степень аномалии.

  2. Если вы имеете в виду предварительно Существующие фильтры спама, которые обучаются на спаме, я бы предположил, что спамерство писем сильно отличается от нежелательности ваших транскриптов.

  3. Используйте POS-теги или структуру syntacti c для вручную создавать правила для правильных предложений: мне это тоже кажется немного утомительным, а также я не уверен, что с этим вы обнаружите весь мусор. Например, в ваших нежелательных примерах, структура syntacti c не кажется мне слишком необычной, например, «приводы часов между ними» могут быть помечены как, что является довольно распространенной последовательностью тегов. Шумиха в этом случае происходит от значения слов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...