То, что вы можете попробовать, это убрать необходимую пунктуацию и пропустить каждое предложение через парадигматический (например, Porter Stemmer ).
После того, как вы получите основанную версию предложения, вы можете сохранить ее в другом столбце для сравнения. Тем не менее, вам может быть удобнее использовать хешированные предложения, если предложения длинные (например, в среднем более 40 символов).
Любые строки, в которых есть одно и то же предложение или хэш, с большой вероятностью будут эквивалентны - вы можете автоматизировать их удаление или создать пользовательский интерфейс, позволяющий человеку быстро одобрить каждую из них.
Вот реализация Python для стеммера Porter .