Как обработать строку для использования в качестве параметра для нейронной сети - PullRequest
0 голосов
/ 23 июня 2019

У меня есть набор данных, содержащий имена около 10 000 автомобилей, среди прочих параметров.Какой оптимальный способ обработки имен автомобилей до значения с плавающей запятой для использования в качестве параметра.

Оптимально, обработка должна сохранять связь между автомобилями одной марки и той же категории.

Я начал с попытки просто использовать алгоритм хеширования, но это создало бы огромный разброс даже для точек данных, которые должны были быть ближе.Итак, затем я продолжил извлекать марку и название модели автомобиля из названия, которое стало двумя разными параметрами.Тем не менее, как я должен обрабатывать их обоих.

например: «Ford Ecosport 1.5 DV5 MT Titanium» стал «Ford» и «Ecosport 1.5 DV5 MT Titanium»

Добавление кодов ASCII символов в строке может быть целесообразным, но этоможет приблизить дальнейшие точки данных.

Каков наилучший подход?

...