В моем наборе данных есть строковые данные типа:
AGF.SL.CA.LOSANG.15764
ABC.EMP.GOO.__._ME$.ZR_ME$ATR$GENERAL
SEM.JP.YOO.����_������_�����.ZC_NA:US::SANDO$GENERAL
Каждая запись имеет связанную с ней категорию, и, учитывая одну такую строку, я должен использовать подход машинного обучения или глубокого обучения, чтобыопределить соответствующую категорию.
Я не совсем понимаю, какой подход следует использовать, чтобы сделать это.Мой основной вопрос заключается в том, должен ли я сохранить строки как есть и использовать функции схожести строк, или я должен разбить строки на разные слова, а затем подсчитать векторизацию и затем продолжить с этого?
Учитываяэтот тип данных, с одной строкой для предсказания класса, что будет лучшим подходом?Я должен поставить это в производство, поэтому мне нужно посмотреть на то, что будет хорошо масштабироваться.Я новичок в ML, поэтому любые предложения будут оценены.Спасибо.