У меня есть набор данных, содержащий имена около 10 000 автомобилей, среди прочих параметров.Какой оптимальный способ обработки имен автомобилей до значения с плавающей запятой для использования в качестве параметра.
Оптимально, обработка должна сохранять связь между автомобилями одной марки и той же категории.
Я начал с попытки просто использовать алгоритм хеширования, но это создало бы огромный разброс даже для точек данных, которые должны были быть ближе.Итак, затем я продолжил извлекать марку и название модели автомобиля из названия, которое стало двумя разными параметрами.Тем не менее, как я должен обрабатывать их обоих.
например: «Ford Ecosport 1.5 DV5 MT Titanium» стал «Ford» и «Ecosport 1.5 DV5 MT Titanium»
Добавление кодов ASCII символов в строке может быть целесообразным, но этоможет приблизить дальнейшие точки данных.
Каков наилучший подход?