Большинство алгоритмов машинного обучения требуют, чтобы входные данные были числовыми. Существует несколько способов извлечь числовые элементы из любой строки. Возможны следующие варианты: # буквы, # слова или пустышки, указывающие на наличие определенных слов (в наборе слов, включенных в столбец «имена», может быть сколько угодно уникальных слов). Конечно, существует множество других методов, и какие из них будут наиболее эффективными, зависит от имеющихся данных. Ясно, что экспертиза предметной области может очень помочь здесь. Кроме того, иногда детерминированные правила могут охватывать уже большую часть случаев. Поэтому я бы не сосредоточился на поиске правильного алгоритма ML для использования, а скорее на том, какие функции извлечь из этой строки, а затем на сравнении нескольких алгоритмов.