У меня есть таблица, которая содержит введенные человеком данные наблюдений. Существует столбец, который должен соответствовать другому списку; введенное человеком значение должно совпадать с таким же, как в основном списке возможностей.
Проблема, однако, заключается в том, что данные человека сокращены, написаны с ошибками и т. Д. Существует ли механизм, который выполняет какой-либо поиск сходства, чтобы определить, какими должны быть введенные человеком данные?
Примеры
**Human Entered** **Should Be**
Carbon-12 Carbon(12)
South Korea Republic of Korea
farenheit Fahrenheit
Единственная мысль, которая у меня действительно есть, - это разбить данные, введенные человеком, на 3-х символьные секции и посмотреть, содержатся ли они в списке «Должен быть». Было бы просто выбрать запись с самым высоким рейтингом. В качестве более позднего дополнения он может предоставить пользователю выбор из топ-10 или чего-то еще.
Я также не обязательно заинтересован в абсолютно идеальном решении, но если бы оно работало на 70% правильно, это сэкономило бы МНОГО времени при просмотре списка.