У меня есть набор данных, который содержит типы автомобилей, введенные пользователями со значениями, такими как: 1.6TDI, 1.6 TDI, 2.0TDI, 2,0 TDI, 3.0BlueTech, 3,0 blue tech
и т. Д. Мне нужно для выравнивания этих значений.
Я бы поставил их все в верхний регистр для начинающих и заменил ,
на .
, но я не знаю, как проверить одинаковый порядок символов и чисел ascii независимо от пробелов и сгруппировать их под одним значением.
Если я заменю пробелы ни на что, название модели будет выглядеть ужасно. Идея состоит в том, чтобы использовать значение, которое имеет наибольшее количество вхождений, и превращать другие значения в это значение.
Любые идеи более чем приветствуются ... Мне не нужен полный код, хороших указателей будет достаточно.
Объяснение
Идея состоит в том, чтобы найти одно истинное значение, например, 1,6 TDI, и выровнять все остальные появления с этим.