Преобразование данных для строковых данных для машинного обучения или глубокого обучения - PullRequest
0 голосов
/ 02 июня 2018

В моем наборе данных есть строковые данные типа:

AGF.SL.CA.LOSANG.15764
ABC.EMP.GOO.__._ME$.ZR_ME$ATR$GENERAL
SEM.JP.YOO.����_������_�����.ZC_NA:US::SANDO$GENERAL

Каждая запись имеет связанную с ней категорию, и, учитывая одну такую ​​строку, я должен использовать подход машинного обучения или глубокого обучения, чтобыопределить соответствующую категорию.

Я не совсем понимаю, какой подход следует использовать, чтобы сделать это.Мой основной вопрос заключается в том, должен ли я сохранить строки как есть и использовать функции схожести строк, или я должен разбить строки на разные слова, а затем подсчитать векторизацию и затем продолжить с этого?

Учитываяэтот тип данных, с одной строкой для предсказания класса, что будет лучшим подходом?Я должен поставить это в производство, поэтому мне нужно посмотреть на то, что будет хорошо масштабироваться.Я новичок в ML, поэтому любые предложения будут оценены.Спасибо.

1 Ответ

0 голосов
/ 02 июня 2018

Мне кажется, что вы можете решить эту проблему с помощью lstm.Единицы (или блоки) долговременной памяти (LSTM) являются строительными единицами для слоев рекуррентной нейронной сети (RNN)

. Эти LSTM помогут нам захватить последовательную информацию и обычно используются в тех случаях, когда мы хотимчтобы узнать последовательные шаблоны в данных

Вы можете декодировать эту проблему, используя уровень символов LSTM.

В этом вам необходимо передать каждый символ текста в ячейке LSTM и, наконец,шаг по времени у вас будет класс, который является истинной меткой

Вы можете использовать функцию кросс-энтропийной потери.

https://machinelearningmastery.com/develop-character-based-neural-language-model-keras/

Это даст вам полное представление

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...