Я должен эвристически определить строки шаблона формата, анализируя отформатированные результаты.
Например, у меня есть следующие строки:
У вас есть 3 непрочитаносообщения.
У вас есть 10 непрочитанных сообщений.
Извините, Дейв .Боюсь, я не могу этого сделать.
Извините, Фрэнк .Боюсь, я не могу этого сделать.
Это утверждение неверно.
Я хочу получить строки этого формата:
У вас есть% s непрочитанных сообщений
Извините, % s .Боюсь, я не могу этого сделать.
Это утверждение неверно.
Какие подходы и / или алгоритмы могут мне здесь помочь?
Моей первой мыслью было использование машинного обучения, но мои смелости говорят мне, что это может быть довольно классической проблемой.
Некоторые дополнительные требования:
- Тип параметра не имеет значения, т.е. мне не нужна информация, если параметр изначально был
%s
или %d
или если онбыл дополнен или выровнен. - Может быть более одного параметра (или его вообще нет)
- Обычно данные состоят из тысяч отформатированных строк, но только из десятков шаблонов формата.