У меня есть новый проект классификации, и я сталкиваюсь с некоторыми проблемами, касающимися модели, созданной для этой проблемы.
В основном (пример набора данных прилагается) У меня есть выровненные данные, которые содержат смешанные функции. (более 1 строки = функция ввода)
Итак, у нас есть:
d_index = which defines which rows belongs together (just for data visualisation not used as feature),
target = the target class we want to learn (0 or 1),
n_name = Name of Element n,
n_p_count = continous feature,
n_type = categorical feature,
Элемент d_index
имеет несколько n elements
, которые предоставляют информацию, необходимую для определения целевого класса.
В принципе, это не проблема при использовании RNN с последовательными функциями ... но есть функция TEXT (NAME of what). Я хотел бы использовать функцию TEXT и проанализировать ее с помощью символов Wise Layer вместе с LSTM, потому что в именах есть некоторый шаблон, который должен встречаться для классификации элемента d_, но это изменит мой простой последовательный ввод (n_p_count, n_type_0, n_type_1 , ...,) Последовательность в последовательности? Ввод (n_p_count, n_type_0, n_type_1, ..., (1,2,3,4,5,6-n символьный указатель))
Я вижу проблему, связанную с вводом последовательности 4D, и не могу найти решения этой проблемы.
Я представляю что-то вроде этого:
1 Sample = Sequence of N_ Elements with dynamic Length (1 d_ can have 1-10.000 N_ Elements)
1 N_ Element is a Sequence of static length (decoded pad_sequence of Characters of the N_ Name) + the Numeric Features.
Я уже работал с RNN (Embedding + LSTM) для классификации текста (имя как посимвольное индексированное вложение). Это не было проблемой, потому что у меня просто было обычное входное измерение, которое также встречается в каждом примере классификации текста.
Я вижу только шанс на данный момент игнорировать числовые характеристики элемента N_, сконцентрировать все n_name элемента d_ как один текст и использовать метод, который я уже использовал в других проектах. (уменьшите размер с 4d до 3d) ... или с помощью числового и игнорируйте ТЕКСТ, но это уменьшит потенциальные важные особенности настолько, что классификация наверняка будет плохой.