Удалить подпись из полученного сообщения - PullRequest
1 голос
/ 05 августа 2010

У меня есть скрипт на python, который получает текстовые сообщения от пользователей и обрабатывает их как запрос.Однако некоторые пользователи имеют подписи, автоматически добавляемые к их сообщениям, и сценарий неправильно обрабатывает их как фактический контент.Какой лучший программный способ распознать и удалить эти подписи?

(я бы предпочел в python, но я в порядке и с любым другим языком, а также просто говорю это в псевдокоде)

Ответы [ 2 ]

1 голос
/ 05 августа 2010

Если подписи добавляются в тело сообщения таким образом, что они фактически являются частью основного текста, то есть только два способа их удаления:

  • Эвристика, такая как "все, что следует за тремя штрихами, должно быть подписью ".Они могут быть эффективны, если вы потратите некоторое время на их настройку.
  • Классификатор.Это большая работа по настройке, которая требует от вас «обучения», помечая некоторые части сообщения как подписи.Они также могут быть очень эффективными, но, как и эвристика, никогда не будут работать 100% времени.
1 голос
/ 05 августа 2010

Если подпись всегда следует определенному шаблону, вы можете просто использовать регулярное выражение, чтобы обрезать его.

Однако, если пользователь может настроить свою подпись так, как он хочет, и естьнет ведущих символов (например: -- в начале), это будет очень сложно.Единственный надежный способ сделать это - заранее знать содержание подписи для каждого пользователя, чтобы вы могли ее удалить.Представьте себе наихудший сценарий: кто-то всегда может отправить пустое сообщение с подписью, которая является полностью допустимым «запросом».Сценарий не сможет отличить это от сообщения «запрос» без подписи.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...