это зависит от размера ваших данных.если это тривиально [несколько десятков тысяч] - запустите ночное пакетное задание, которое будет:
- извлекать уникальные имена исполнителей из исходных данных
- вычислять soundex
- createсловарь с ключом soundex, value - список исходных строк для столбца Artist
. На этом этапе вам нужно будет решить, хотите ли вы автоматически объединять или утверждать вручную для каждого переименования.в конечном счете вы можете иметь таблицу помощников с правильным написанием и найденными до сих пор ошибочными написаниями.эти случаи могут быть обработаны автоматически при следующем обнаружении.
если soundex недостаточно хорош, вы можете попытаться поэкспериментировать с функциями php Similar_text, levenshtein и сравнить имена, найденные во вновь добавленных данных, с «утвержденными» именамиартисты, которых вы уже рассматривали ранее.